2018 科学家们搜了啥 Nature发布搜索热词榜 中国科讯

近日,《自然》在网站上发布了2018年在线搜索科技热词榜。

科学家在网上都搜索了啥?

结果显示,“癌症”“区块链”“大数据”“人工智能”等词在2018年的科技界十分火爆。

热榜前十都有谁

学术数据库Scopus整理了2017年和2018年的搜索词数据,并提供给《自然》。

Scopus是由全球最大的出版社爱思唯尔出版社推出的科研管理、学科规划数据库,也是全球最大的同行评审期刊文摘和引文数据库,覆盖了自然科学、技术、工程、医学、社会科学、艺术与人文学科。

就在这样一个“包罗万象”的数据库中,“癌症”一词蝉联了2017和2018年搜索冠军。

“心脏”“心脏病发作”“气候变化”和“大数据”均在两年的前10位中占据一席之地。

图表来源:《自然》

从上述图表可以看出,“大数据”一词在2018年相当火热,从2017年的第6位跃升至2018年的第3位。

“今年有很多人关注(大数据)是如何影响世界的。”英国剑桥大学莱维胡姆未来情报中心科学传播学研究员Kanta Dihal说。

2018榜单中出现的新词条也暗示研究人员有了越来越多的想法。

“区块链”“人工智能”“工业4.0”等代表新兴技术发展的词语悄然出现。

“人工智能”从2017年的第13位升至去年的第4位,同事“机器学习”和“深度学习”进入前20名。

原因之一可能是人工智能研究开始结出果实,并且许多与人工智能相关的新研究机构和研究项目正在建立。

“区块链”的人气也出现爆炸式增长,从榜单的第19位跃升至第2位。

英国曼彻斯特大学研究科学和技术政策的Kieron Flanagan说,这一跳跃可能表明研究人员希望将区块链应用到他们的工作中。

或者,科学家只是想知道它是什么。

“这是流行词,但几乎没有人知道区块链是什么意思。”Dihal说。

当然,这些趋势也可能揭示出对新技术的炒作周期。

例如,2018年跌出前10的“石墨烯”,在2017年时也曾是十足热词。

同时,2018年,人们曾热衷讨论的“压力”和“肥胖”也都跌出了前20名。

人们“谷歌”了啥?

谷歌也向《自然》提供了被全世界人们搜索最多的科学术语。

谷歌数据显示,数学公式和常数是最热门搜索词。

图表来源:《自然》

对比两年的数据发现,圆的面积、圆柱体积和光速,在两年的前10 榜单中都有身影。

天体物理学家奈尔?德葛拉司?泰森是这两年中排名前十检索词中唯一的一位科学家。

2017年榜单中,有一半与日、月食有关。

这与近40年来首个将出现在美国大陆的全日食发生在2017年8月21日可能有关。

一年热度也不均

数据显示,方程和常数等词语的搜索量全年基本不变,但在特定月份有所下降。

图表来源:《自然》

伦敦谷歌新闻实验室趋势研究负责人Sam Walsh表示:“我们无法确切地知道原因,但在所有地区,公式搜索量在夏季都会有所下降。我想,夏天搜索这个词的人越来越少是因为正值暑假。事实上,搜索公式的高峰期是在5月份——通常是考试季节。”

Walsh还提到,“科学”一词的搜索也遵循类似的模式。

原文链接:https://www.nature.com/articles/d41586-018-07879-9

本文来源:科学网

转载授权、合作、投稿事宜请在本文留言!

别再傻傻地做竞价了 这里有可以整年在百度搜索首页展示的方法(首次发布)

百度推广是效果最好的方式,但同时也是最贵的。

医疗行业平均每年的百度竞价费用超过千万;

京东每年百度推广费用2个亿;

阿里每年百度推广费用3个亿

……

法律行业做百度竞价每年至少10万元。

这样高昂的成本,让绝大多数人望而却步,其中也包括律师。

百度,占据国内搜索市场80.64%的份额,在移动端市场份额百度占了88.81%,百度是13亿中国人上网搜索必须的工具,律师推广当然也无法忽视这个巨大资源。

∧数据来源:2017年11月搜索市场排行榜

除了竞价排名,就没有一个效果更好、展示更稳定、费用更低的推广方式了吗?

当然有!百度2018年最新推出的百度律师品牌续航计划,就是一个不同于百度竞价的全新模式——同样是在百度大首页推广,但是花费的成本却很低!

好消息

智飞微信通已经与百度方面达成了2018年律师推广战略合作!百度大搜50个热门法律搜索词,全年不下线,大首页稳定位置展示,让律师低成本享受到百度大首页推广的成果。

价值一

50个热门法律搜索词!

竞价最热、当事人最常搜!

(∧暂定意向词,以实际上线的关键词为准)

价值二

百度大搜首页固定展示!

全年不下线、位置稳定!

智飞精选的搜索关键词,可以稳定在百度搜索首页,固定1年时间展示,排名稳定,不掉线、不随机,长期为律师进行品牌宣传推广。

(∧单个关键词展示效果演示,以实际上线为准)

价值三

微信公众号+百度推广

为律师公众号品牌续航!

智飞推出的百度律师推广服务,可以直接展示律师自己的公众号和微网站,让资源更聚合、让品牌更集中、让推广成本更低!

价值四

百度文库+百度大搜流量导入,

两大百度官方产品通力合作!

除百度大搜的50个高流量关键词之外,律师还将额外获得5亿PV的百度文库展示,让当事人在查阅文档、搜索法律知识的时候也能咨询律师。

要花多少钱?

●百度大搜首页展示,价格只相当于百度竞价的1%!

●50个法律热门搜索词,1年时间稳定展示!

2017年12月28日之后加入的律师将每年加取3000元。

为什么要预售?

●智飞与百度方面达成的合作为2018年律师推广计划,百度需要对关键词、律师资质、上线页面进行提前审核,因此我们需要先邀请部分优质律师加入。

●仅限3天,2017年12月28日24点之后,将正式提交百度审核,等待最终上线。

●提前加入的律师,也将按照最终上线时间计算展示期限。

百度律师推广,预售开抢!

仅限3天!合作律师微网站即可在50个热搜关键词中展示1年,中国最大知识分享平台百度文库+百度大首页 稳定排名展示,长期引流!截止到2017年12月28日24点,届时将提交百度方面审核等待正式上线,之后所有律师加入将加收3000元/年!

抢占热线:4006-186-116

或微信回复:地区+姓名+电话

或加QQ/微信:1930723417

Facebook推出全站搜索功能 查找信息更方便

Facebook周四宣布推出一项功能,帮助用户对其社交网络上每月超过2万亿条的内容进行类似谷歌的搜索。Facebook用户可以通过网站或移动应用的搜索栏来使用这一功能。

例如,当用户在搜索栏中输入关键词“水”时,Facebook将会给出更多推荐,例如“火星上的水”。如果用户点击某一搜索结果,那么将会看到包含文章、评论、视频和其他相关内容的一个列表。

当用户搜索water时

这一新功能对Facebook平台的搜索进行了强化。此前,Facebook用户只能搜索好友、群组或场所等内容。这也意味着,Facebook的15亿用户可以方便地查找更多信息,例如有哪些好友喜欢乐队Nickelback。

Facebook搜索功能项目经理罗塞乌·卡奇(Rosseau Kazi)表示:“Facebook平台上有许多内容、观点和意见。将搜索功能从你的网络扩大至Facebook上的一切是重大的一步。”

目前,Facebook希望用户持续使用其服务。数据显示,用户每天使用Facebook、Messenger和Instagram等应用的时间已超过 46分钟。如果使用Facebook的用户越多,那么Facebook就有更多机会向用户展示广告,获得更多收入。

这一新功能也有助于Facebook巩固全球最大社交网络的地位。Twitter目前也在帮助用户更方便地获得其他用户发布的文章、照片和视频。而Pinterest也提供了功能,帮助用户过滤及分享文章、照片和视频。

从本周四开始,这一新的搜索功能将被提供给美国的英语用户。Facebook没有透露,这一功能将于何时被开放给其他用户。

Facebook表示,在这一新功能推出之后,用户的隐私设置不会发生改变。

玩转搜索广告关键字匹配类型-高手手册 (初级篇)

作为一个玩搜索广告的人,每天的思绪经常是“CPC怎么又升了!”,“那么多关键词怎么搞?”,“这些关键词到底买不买?”。有这些问题,大家可以从检阅现在关键词的匹配模式入手。在一定程度上,广告的效率和收益需要看匹配模式。其一,不同的匹配模式战略性作用不同;其二,匹配方式使用得当,CPC轻松控!

本文是关键词匹配模式入门篇,主讲对于几个匹配方式的理解,附加两个简单常见的情景。后续的(进阶篇)将以一个案例来展示匹配方式方方面面的应用方法和理念。希望各位看官读后能对谷歌(Google AdWords)的匹配方式有更深的了解,可以深度对比国内的搜索渠道,为需要跨境营销或者出海的企业提供高质量的搜索广告服务。

谷歌有哪些匹配模式?

不论面向的是初学者还是资深老司机,匹配模式的定义还是要清晰:

广泛匹配(Broad Match:系统智能匹配与投放的关键词同义/近似/相关的搜索词。言简意赅就是聪明的系统认为用户搜索的意图可能与投放关键词相符,系统就会依据搜索词推送广告,不论长短,不论形式。例如:投放关键字为「女帽」,搜索词为「购买女士帽子」时,在竞价合理的情况下广告很可能显示在谷歌上。

广泛匹配修饰符(Broad Match Modifier:简称BMM。意为把两个短语用「+」和「空格」连接。搜索词中必须完全包含「+」后面的短语。例如:投放关键字为「+女士 +帽子」,搜索词为「购买女士戴的帽子」时,在竞价合理的情况下广告很可能显示在谷歌上。这类匹配方式是进阶版的短语匹配,又比广泛匹配更加精确。

短语匹配(Phrase Match:搜索词必须完全包含关键词,可以在关键词的前面或后面添加其他字,但是不可以将该词组由中间断开,或者颠倒该词组的字序。例如:投放关键字为「女帽」,搜索词可以为「购买女帽」。相比国内算法众多的短语匹配,谷歌的短语匹配要求更加严格。而国内常说的「智能短语」这里更加接近谷歌的广泛匹配。

精确匹配(Exact Match:顾名思义,指用户搜索词完全与投放的关键词完全匹配。与短语匹配的不同就是,不可以在词语的前面或后面添加其他字。但是谨记在谷歌的完全匹配中,在含义不发生改变的前提下,调整字词的顺序,以及增减虚词(介词、连词、冠词)都不会影响广告的展现。例如:投放关键字为「女士帽子」,搜索词可以为「女士的帽子」。

下面是我们最经常参考的谷歌图表。新手刚接触匹配类型,老是搞不清楚的时候,可以直接把这个打印出来,贴在你电脑旁边。

不同匹配模式如何表达?

习惯了用Excel来批量上传新的关键词的高手们,请谨记用谷歌的方式来表达关键词,不然会出现系统错误的:

「广泛匹配」用起来!

「广泛匹配」简单暴力易于上手。掌握2个简单快捷有有效的应对策略,轻松用起来。

情景A:不知道买什么关键字?

策略:品牌曝光为短期目标+「广泛匹配」做市场探底

为了最大化搜索广告的预算使用,在不了解目标受众搜索行为的情况下,可以先在短期内将目标定义为:增加品牌曝光和市场探底。利用比较多的「广泛匹配」或者是广泛匹配修饰符+的关键字,覆盖最相关的产品词和需求词,在短时间内筛选出点击收费相对较低的「广泛匹配」关键字来运行广告一段时间。这样既可以在这段时间高效利用成本为网站带来流量,又可以通过专注搜索词,寻找出有转化,或是质量较高,或是与我的业务相关度高的搜索词,添加为「短语匹配」或者「精确匹配」的关键词,从而扩充我的有效词库和进一步加强转化。

情景B:「广泛匹配」短词太贵。买?不买?

策略:替代法

1)如果执着于这个关键词的原因是他的流量和曝光高,品牌效应好,首先建议将这个词转变成「精确匹配」,因为由「广泛匹配」带来的大量高CPC点击会快速消耗预算,导致曝光时间降低且预算使用效率大幅度下降。其次在「精确匹配」下,可以在预算允许的情况下适当提升竞价。2)如果执着于这个关键词是因为它能带来的转化多,那么建议降低现在这个关键词的出价,观察搜索词,了解具体哪一个或哪几个搜索词带来转化,从而将他们添加成各类匹配方式。当新添加的关键词转化率和转化数都高于原本的短关键词,可以将原本的关键词弃用。

关于玩转关键词匹配模式真是有数不完的话题可以聊,下一期将继续这个话题中更深入一些的部分。奥博传媒团队(OctoPlus Media)在这10年中遇到了不同类型的电商、B2B,B2C的国内客户需要出海营销。为了帮不同企业完成他们海外的营销目标,我们已总结出数种针对海外广告的应对方案与增值策略。欢迎您与我们分享您的故事,或者加入我们的讨论组,我们定期分享心得和出海方案供大家参考。

京东亿级商品搜索核心技术解密

作者:王春明,现任京东搜索平台部负责人,2011年加入京东搜索团队,期间一直负责京东搜索引擎研发工作,主导了多次搜索架构升级工作保障其满足京东发展需求,擅长搜索引擎、高性能服务开发、分布式系统架构。

招聘: 京东搜索平台部木有有高级/资深搜索引擎研发工程师(C/C++) 、高级/资深算法工程师(C/C++)、高级/资深数据系统工程师(java)等职位,期待您的加入,一起打造弹性搜索平台。简历投递至:wangchunming@jd.com,工作地点:北京-北辰世纪中心A座。

京东商品搜索简介

京东商品搜索引擎是搜索推荐部自主研发的商品搜索引擎,主要功能是为海量京东用户提供精准、快速的购物体验。目前入口主要有PC/移动/微信/手Q搜索、移动列表页、店铺搜索、店铺列表等。虽然只有短短几年的时间,系统已经能够支持日均PV过亿的请求,并且经过了多次618店庆和双11的考验。

与人们日常使用的如谷歌、百度等大搜索(或称为“全文搜索”)引擎相比,京东商品搜索引擎与前者有相通之处,比如“覆盖海量数据”、“超高并发查询”以及“超快速的请求响应时间”,同时又有自身显著的业务特点:

  • 结构化的商品数据,需要从商品、库存、价格、促销、仓储等多个系统进行抽取;

  • 极高的召回率要求,保证每一个状态正常的商品都能够被搜索到;

  • 商品信息的及时更新,目的是为了保证用户极佳的购物体验——比如不能给用户展示出下柜的商品,或者商品的实时价格超出了用户搜索限定的范围。这就要求我们的搜索引擎要做到和各个系统的信息时刻保持同步,目前每天更新次数过亿;

  • 逻辑复杂的商品业务,需要存储的商品属性信息是倒排索引信息的2倍之多;

  • 用户购物的个性化需求,要求系统实现用户标签与商品标签的匹配。

正是由于既要兼顾大搜索引擎的通用需求,同时要契合京东的业务特点,我们将系统架构分为四个部分:1. 爬虫系统、2. 离线信息处理系统、3. 索引系统、4. 搜索服务系统。

为了使各位读者能够深入了解京东商品搜索引擎的架构,本文首先介绍了商品搜索的总体架构,然后依次介绍了爬虫系统、离线信息处理系统等各个部分,并且对搜索技术的最新研究方向做展望,希望对各位读者有所帮助。

总体架构

京东商品搜索引擎的整体架构如下图所示:

从上到下共分为3层。最上层是由搜索的前端UI层,负责页面展示。

中间层是由搜索索引服务、SUG搜索、相关搜索、划词服务和兜底服务组成。其中,SUG搜索提供输入框下拉提示词功能;相关搜索提供与query相关的其他搜索词服务;划词服务提供去除query部分词的功能;兜底服务用于索引服务异常情况下提供托底,保证用户基本的搜索可用。

最下层是索引生产端,主要功能是对接商品、库存、价格、促销、仓储等众多外部系统,整合相关数据生产全量和增量数据的索引,为在线检索服务集群提供全量索引和实时索引数据。

爬虫系统

商品搜索引擎的核心是建立商品索引,而建立索引需要详细的商品信息数据。我们利用大数据平台的数据库抽取接口和中间件系统,实现了站内商品爬虫系统,用来抽取数据库中的商品信息和及时发现变化的商品信息。从实践的效果上来看,爬虫系统表现是非常稳定和可靠的。

离线信息处理系统

离线信息处理系统主要功能是用来建立商品搜索引擎的待索引数据,包括全量待索引数据和增量待索引数据。

目前商品全量待索引数据按天进行更新,一部分是商品的基础属性信息,如商品sku、商品名称、颜色、规格、风格、材质面料等等,属于比较稳定、短时期内不会变化的数据。另外一部分是商品销售信息,如商品销量、销售额、评论等,属于易变数据。这些数据散布于多个系统中,使用的存储也各不相同。因此需要对这些来源分散的数据在商品维度进行合并,生成“商品全量待索引宽表”。目前我们建立的全量待索引宽表,不仅应用于搜索引擎服务,还同时应用于个性化推荐等其他产品服务当中。但是仅生成宽表是无法完成搜索引擎的索引需求的,因此我们利用Hadoop/MapReduce计算框架对宽表数据进行清洗,并且依照离线业务逻辑规则对数据进行二次“加工”,最终生成一份全量待索引数据。

有些商品信息,比如“价格”、“库存”、“上下架”等,经常会产生变化,因此对这些数据做全量索引满足不了商品搜索引擎的需求。为了解决数据实时性的强需求,我们建立了增量索引作为全量索引的补充。具体细节上,采用和全量索引类似的方法对数据进行处理,生成增量待索引数据。为了保证增量数据的及时性和准确性,离线信息处理系统会实时调用各商品信息接口获取数据,完成增量待索引数据的在线组装和生产。

索引系统

索引系统是商品搜索引擎的核心,主要功能是把以商品为维度进行存储的待索引数据,转换成以关键字为维度进行存储的数据,用于搜索引擎上层服务进行调用。这里待索引数据指前面离线信息处理系统生成的全量待索引数据和增量待索引数据。

此系统对于全量和增量的处理是一致的,唯一的区别在于待处理数据量的差异。一般情况下,全量数据索引由于数据量庞大,采用Hadoop/MapReduce进行;实时数据量小,采用单机进行索引生产。

为了满足分布式检索的需求,索引系统还会对索引数据进行分片处理,即按照一定策略将索引数据拆分成较小索引片,用于搜索服务系统调用。

搜索服务系统

搜索索引服务系统主要功能是接受用户请求并响应,返回搜索结果。搜索服务系统的发展也经历了从无到有,从简单到丰富到过程。主要分为如下几个阶段:

  • 最初,搜索服务只有1列searcher组成在线检索服务,能够完成一些简单的商品搜索;

  • 随着访问量的增长,搜索服务系统增加了缓存模块,大大加快了请求处理的速度;

  • 接下来为了提高用户体验,我们增加了Query Processor服务,负责用户查询意图分析,提升搜索的准确性。目前Query Processor已经成为了一个融合自然语言处理、机器学习等先进技术的成熟服务,并且还在不断的进行优化;

  • 为了支持个性化,增加了User Profile服务,负责查询用户标签。将商品的标签与用户标签是否匹配,作为一个特征加入排序因子,实现搜索的千人千面;

  • 接着随着数据量(商品量)的增长,我们将结果包装功能从检索服务中独立出去,成为detail服务(基于缓存云实现的商品信息KV查询服务);

  • 将检索服务进行分片化处理,即采用类似数据库分库分表的思想,对商品id,进行hash处理后进行分片,保证各个分片数据均匀。查询时,将一个搜索请求分配到多个searcher列上,并行检索,进行局部排序后返回给merger。然后merger服务,将多个分片的检索结果进行归并,然后再进行业务排序和加工,确定要返回的商品,最后调用detail服务包装,将结果返给给blender。blender将多个搜索的结果进行融合,返回给前端。需要说明的是,此时搜索服务系统已经成为了一个“多blender&多Searcher&多merger”的系统。今后无论是访问量的增长或者数据量的增长,都可以通过扩容来满足。尤其对于618店庆、11.11之类的峰值搜索量剧增的情况下,可通过增加每个searcher列服务器的数量来满足需求。随着商品数据的不断增加,只要适时对数据做更多的分片,相应增加searcher列就可以了。检索服务分片化机制的建立也标志着京东搜索基础服务系统已经趋于完备。

完整的搜索索引服务架构,如下图所示:

搜索请求流程如下:

  1. 外部请求通过vip到达blender;

  2. Blender调用QP,QP调用运营平台,其中运营平台主要负责将日常运营数据服务化,QP负责分析query;

  3. Blender同时请求Merger和其他垂直搜索服务;

  4. Merger调用UserProfile获取用户标签信息;

  5. Merger将请求发给每列searcher;

  6. 每个searcher召回商品并返给Merger;

  7. Merger合并多列searcher的结果,确定需要输出的商品,请求Datail包装对应的商品信息;

  8. Detail包装商品信息返给Merger;

  9. Merger将包装好的商品返给blender;

  10. Blender将merger返回的结果与其他垂直搜索结果进行合并,最终返回给前端。

Blender、Merger、Searcher和Detail是整个系统的核心组件,它们之间的调用关系由Clustermap管理。各个模块将自己的服务注册到ClusterMap,同时从ClusterMap订阅其调用模块的信息来确定实际调用关系。

简要搜索服务流程,如下图所示(搜索服务系统内部处理流程):

图中名词解释如下:

  • Page cache:页面缓存,blender模块直接缓存输出的页面,merger缓存了多页商品id;

  • Attr cache:属性缓存,缓存的搜索属性导航区的数据;

  • Doc cache:缓存查询词从全量索引召回的结果;

  • OP:运营平台服务,负责搜索运营数据的服务化;

  • QP:query processor,负责query意图识别。

用户请求发送到blender,首先解析参数。如果命中blender page cache直接返回给用户。如果没有命中,则调用运营平台服务(OP)和QP,并将其传给Merger,Merge会检查是否命中Attr cache,如果命中并且恰好仅请求属性汇总结果,直接返回给blender。否则进一步查看是否命中merger page cahce,如果命中直接调用detail包装,返给blender。如果没有命中,则调用User Profile获取用户标签,将其传给searcher(篇幅所限,图中只列了一个searcher,实际是多个)。Searcher接到请求,判断是否命中doc cache,如果命中doc cache,则拉取增量结果;如果没有命中doc cahe,则拉取全量和增量结果。然后依次进行排序、在线业务处理,把结果返给merger。Merger合并多个searcher结果,排序、在线业务处理,最后调用detail包装,最后将结果返给blender,blender合并多个搜索结果后返回给用户。

作为一个高并发系统,为了保证高召回率和低响应延时,我们把整个搜索服务流程的处理全部放在内存当中进行计算。多个searcher并发处理请求,同时单个searcher内部采用线程池技术,即所有线程之间共享倒排索引和商品属性信息,提高内存使用效率;每个查询使用一个独立线程串行执行,保证并发的多个查询线程之间互不影响。此外通过合理的设置线程池的大小,我们可以保证系统的CPU资源得到充分利用。在上述两个方面对系统进行优化之后,整个搜索服务系统的稳定性、召回率、内存使用率、计算速度等指标都有大幅度的提高。但是我们改进系统的步伐并没有停歇,因为通过实践发现基于内存和线程池的搜索服务仍然有几个瓶颈点亟需解决,主要包括:拉取倒排、排序和在线业务处理。针对这些问题,我们进行了二次优化,主要包括如下措施:

1. 多级缓存策略

  1. Blender Page cache:由于搜索符合互联网的二八法则,20%热门查询频度非常高,占每天搜索请求量80%。针对这一特点,搜索第一级缓存以查询请求为key,将返回给用户的页面作为value。对于完全相同的请求,直接从缓存返回结果。页面缓存策略上线伊始,缓存命中率就接近了30%,基本解决了当时的性能问题。

  2. Merge Page cache:随着业务的发展,排序结果需要针对不同用户实现个性化订制,这就导致请求中会包含用户的user pin。如果直接将user pin放入缓存作为key,会导致blender cache的key数量暴增,不但需要超大的缓存空间,同时缓存的命中率也会极低,最终会导致线上个性化服务的体验满意度降低。为了解决这个问题,将user_pin加入key,但是value只保存排序好的商品id,这样需要的缓存空间远远小于blender cache。当命中缓存后,调用detail直接进行结果包装。为了进一步提高缓存命中率,利用用户搜索的翻页习惯,即离线统计出用户的翻页数TP99,然后在value中缓存这些页面涉及到所有的商品id,从实践效果来看,用户后续的翻页请求大部分会命中cache。

  3. 在深入分析了业务和排序的需求之后,我们发现拉取倒排的结果只和“查询词&筛选条件”有关,而与用户无关,因此可以按照“查询词&筛选条件”作为key的方式对其进行缓存。

虽然拉取倒排结果缓存的key很快就解决了,但是我们在解决Value的存储时遇到了两个问题:1)拉取倒排的结果非常之多,导致缓存过大;2)对此结果缓存,会降低实时索引的时效性。

对于问题1),在分析了业务之后,对需要缓存的信息进行了大量的精简并采用压缩存储,最终将一个查询的缓存控制在0.5M以下。

对于问题2),我们将拉取倒排结果分为两部分,第一部分是从全量索引拉取倒排的结果,第二部分是从实时索引拉取倒排的结果。为了和全量索引的更新频率保持同步,我们把第一部分数据进行缓存的周期置为1天。对于第二部分数据,由于增量结果远远少于全量结果(一般增量只有全量5%不到),每次缓存都进行实时计算,这就是图3中的doc cache机制。从实践中来看,命中doc cache的响应时间比未命中的降低了1-2个数量级。将来随着增量结果的积累,如果实时拉取倒排结果成为性能瓶颈,可以对增量索引分段也进行缓存。

2. 截断策略

对于有些热门查询,由于其结果较多,比如“男装”、“鞋”之类的query,原始查询结果几千万个,如果对这些结果挨个进行处理,性能会非常差。同时,从用户角度分析,一个查询只有排在最前面的结果对用户才有意义。通过分析用户翻页次数,可以得到截断保留topN结果。如何保证截断不影响用户体验呢?首先我们对商品建立离线模型,即为每个商品计算出一个质量分数据。然后在索引阶段,将所有商品按照质量分降序排列,保证在倒排链中,排在前面的商品质量分总是高于后面的。在线从前往后拉取倒排过程中,如果结果数达到10*topN时,停止拉取倒排。随后对结果计算文本相关性,再按照文本相关性取topN个。截断算法上线前后,虽然KPI指标无明显变化,但是对大结果查询性能提升了一个数量级。

3. 均匀分片策略

从总体架构图中我们可以看到,如果我们将一个term的倒排链进行均分,那么相应term的拉取倒排也会被分配至各个searcher列。正是由于各个searcher列是并行计算的,这样的均分操作就可以大大减少每个查询的平均响应时间。从理论上来讲,我们采用的均匀分片策略,也有效的契合了拉取倒排、排序、在线业务处理等CPU密集型的任务。但是分片增加,会带来硬件成本增高的后果,同时集群节点间的通信成本也会增加,需要进一步权衡折衷。

4. 业务优化

京东的搜索业务并不只有上面所述的策略和工程逻辑,还必须融合很多业务逻辑。由于每一次搜索几乎都会召回很多结果,如果业务逻辑处理不好,也会导致搜索体验不好。针对这一问题并没有通用的解决方法,但是通过实践我们总结出一个基本原则:在离线阶段完成尽可能多的业务逻辑,减少在线计算量!例如进行搜索排序时,我们需要根据用户搜索历史行为(浏览、点击、购买等)对召回的结果进行排序上的调整,在工程实现上我们会先离线统计出同一个query下所有用户对每个展示商品的行为,然后建立模型,计算出该query下每个商品的权重,将其以hash结构存储;在线排序时,直接以query+商品id为key,取出权重作为反馈特征参与综合排序。

搜索技术的新发展

我们在当前的架构基础之上,正在进行一些新的探索,比如场景搜索和图像搜索。

场景搜索

随着目前京东集团的业务的扩展,用户在使用搜索时,目的不仅仅是查找商品,还可能查询促销活动信息。为了满足这些新的需求,我们在目前商品索引融合了促销系统的数据。我们首先在Query Processor中增加对应意图的识别,然后将促销等数据转换为索引数据。只要Query Processor识别出用户提出这方便的查询意图,将对应的结果返回。

图像搜索

传统搜索仅仅针对文字,但是电商系统的商品图片非常重要,很多购买决策依赖于它。目前我们利用deep learning技术离线训练图片特征,并将其做成索引。当用户使用实拍图或者网图来搜索时,采用相同的方式提取特征,然后从索引中召回最相似商品返回给用户。

============京东技术============

============个人公众号推荐==========

开发资讯 ,by 臧秀涛,InfoQ大编辑,译有《C++ API设计》、《Groovy程序设计》、《Java性能权威指南》等技术图书。

HelloJava,by 毕玄,《分布式Java应用》作者,Java问题排查的各种Case,各种知识点。

============为京东代言===========

欢迎选择京东云,点击「阅读原文」了解详情。

双11黑科技视频 阿里巴巴研究员徐盈辉 在线AI技术在搜索与推荐场景的应用

嘉宾简介

徐盈辉,阿里巴巴研究员,日本丰桥技术科学大学计算机科学博士,阿里搜索事业部搜索排序和基础算法的负责人。他规划和设计了搜索新一代的排序框架体系,建立了集offline-nearline-online三位一体的电商平台个性化搜索体系,推动和完成了搜索实时在线计算体系的规模化和平台化,在技术的先进性和业务的推动上都取得了突破性成果。

移动搜索用户逐渐饱和 增速放缓二季度仅增长0-94%

移动搜索是指在移动终端进行对普遍互联网的搜索,从而实现高速、准确地获取信息资源。目前,移动搜索主要应用在浏览器、搜索引擎和一般功能性搜索。

据前瞻数据库数据显示,2017年第二季度中国移动搜索用户规模增至6.47亿人,增长率为0.94%。目前移动搜索用户规模已趋向于饱和状态,增长速度放缓且较为稳定。

以下为2016年以来各季度移动搜索用户规模及增长率:

在移动搜索市场用户体量难有较大变化的状态下,企业打造差异化产品,改变用户结构分布成为未来竞争关键。目前国内移动搜索市场产品主要分为两个梯队,其中百度搜索独居第一梯队并拥有较大优势,第二梯队阵容为同样拥有较大流量入口的搜狗搜索、360搜索以及神马搜索。

百度进入移动搜索市场早,且拥有多类型流量入口,因此在中国市场稳居第一;搜狗搜索则凭借产品差异化打造以及持续在人工领域发力,处于产品上升期,并逐步确立市场第二的地位,上半年以20.9%用户份额居百度之后。

(本文来自前瞻数据库,转载请注明)

搜索竞价推广账户的恶意点击分类 判定及处理办法大全-中

在上一期的内容中竞价托管运营老阳介绍了搜索竞价推广账户的恶意点击分类情况,这一期,我们介绍如何判断流量是正常用户或是恶意行为。

对于庞大的网络流量入口,网站通过竞价每天可以获得成百上千的点击访问,如果恶意点击产生了,必须要尽快处理才可以将损失降低到最小!那么管理人员必须要练就一双火眼金睛!

老阳一般采用以下办法辨别流量是否有恶意行为:

首先,所有的异常行为都必须有参照物,如果以下四项参数异常,那么必须要检查是否存在恶意点击:

1、检索量,关键词的检索量可以通过检索词报告查阅,常规情况,每个词的检索量一定是根据行业淡旺季、竞价竞争状态呈现稳定的波动曲线,这个波动非常有限,当某个词检索量异常飙升的时候,没有突发性事件那就一定是有软件刷搜索或展现,需要防范恶意点击(也有可能不是点你们家的)。

2、点击次数:结合历史点击行为判定点击次数的波动行为,重点关注单价高的词。

3、点击率:如果关键词的检索量相对较大,点击率是作为判定是否被恶意点击的重要依据,常规情况下根据创意和排名点击率一般在3%-8%上下浮动,很难超过10%。

4、转化率:结合点击次数判定关键词的转化行为是否存在,如果词性良好,点击次数过大,不存在咨询转化,那就有明显的恶意点击嫌疑了。转化率根据行业差异较大,1%-10%都有可能。

其次,在数据异常情况我们如何判断具体的流量是否是恶意行为呢?我们主要参考以下四项参数:

1、单独关键词的访问频次变化:结合历史数据,如果某关键词出现了高频点击行为,且检索量无故突增,可以判断为软件恶意点击嫌疑,如果某关键词出现了高频点击行为,但检索量曝光量正常,可以判断为人为手动恶意点击嫌疑。如下图是必然存在恶意点击行为

2、相同IP的重复点击:这个很好理解了,相同IP 在短期换着关键词点击,在不同时间段重复点击都是恶意行为。

3、页面停留时间降低:通过竞价访问的关键词停留时间在一定程度上可以判断用户意图,如果大量流量都是短暂停留,明显存在恶意点击行为。

4、访问页面数量降低:根据页面组成情况,多页面展现如果跳出率过高也有恶意点击风险。单页面落地页无法以此判定。

下图可以代表上面三种这样的行为:

以上方式行为都可以通过第三方监控数据发现端倪。

除此之外,您是否有其他的恶意点击行为辨方式呢?欢迎留言交流!

下一期我们更新《搜索竞价推广账户的恶意点击防范、排查及处理办法大全(下)》:介绍恶意点击的应对解决办法,下期再会!

百度搜索下拉框及百度相关搜索中刷关键字方法

打开百度在搜索框中输入内容,会自动弹出下拉框,方便用户快捷输入。

在百度搜索页面底部,有相关搜索关键词

这些都是绝佳的百度营销效果,而且完全可以免费实现。只要我们不断搜索某个关键词,就能提高这个关键词的热度。关键词自动在输入框下拉菜单或相关搜索中出现。

具体实现方法可以用软件《网页自动操作通用工具》或《网页自动提交监控工具》

下面详细介绍一下步骤

一、打开软件,添加百度网址

二、添加提交内容,即输入关键字。

我们把关键词保存在一个文本文件中,用软件循环搜索这些关键词

选择提交内容选项卡,点击添加按钮,再点击自动获取

等网页加载完成后,鼠标移到百度关键词输入框,点击鼠标右键,在快捷菜单中点击获取元素,再点击添加元素按钮

元素参数已自动设置好了,下面设置填写内容,选择从文件导入,选择关键字文件。

三、设置提交方法,即点击“百度一下”提交

选择提交方法选项卡,设置提交按钮提交,点击自动获取

将鼠标移到“百度一下”按钮上,点击鼠标右键,选择获取元素,再点击添加元素。提交方法就设置好了。

四、设置搜索速度

设置搜索速度为600秒,即每十分钟搜索一个关键词,直到搜索完关键字文件中所有关键字后停止。这里不能设置太小,因为太快肯定被百度视为无效搜索,从而不统计关键词热度。

五、设置任务定时循环启动

上一步已经提到,软件搜索完成所有关键字即停止,如何让软件间隔一段时间后再次启动,这里用到定时操作。

在软件的工具菜单中,找到定时操作并打开。

设置立即开始执行,每两小时执行一次1#操作。这样软件就会长期自动搜索关键词了。

六、自动换IP、操作系统、浏览器及其它伪装设置介绍

这些方法可以躲开百度的监控,让我们的搜索有效。

以上方法不仅适用于百度,还可用在其它所有搜索网站。如必应搜索,谷歌搜索,搜狗搜索,雅虎搜索,淘宝搜索等

最新eBay旺季最新TOP7玩具搜索清单

图片来源/ 123rf.com.cn

2017年黑色星期五(11月24日)即将来临,家长们正在寻找各种玩具。而根据11月份eBay的搜索统计数据显示,以下7款玩具最受欢迎:

1、LOL Surprise惊喜宝贝蛋

MGA Entertainment正在致力于推出能给小朋友带来惊喜感的产品。

LOL Surprise惊喜宝贝蛋是一个圆形的小球,里面总共有七层,孩子们每打开一层就会看到一个小礼物。

LOL Surprise的销售额从2017年11月初开始至今,已增长了近85%。11月4日,eBay平均每小时售出23个LOL Surprise。

普通版LOL Surprise售价在10美元左右,而2017年终推出的豪华版惊喜宝贝蛋LOL Big Surprise最初定价60美元,但因为现在很多商店都缺货,这款玩具在网上的价格已经超过100美元。

2、Super NES Classic(任天堂怀旧主机NES 经典版)

这款迷你怀旧版NES主机售价79.99美元,是任天堂20世纪90年代风靡全球红白机的一个回归。这是一款独立设备,无法联网,内置21款游戏,包括《超级马里奥卡丁车》、《超级马里奥世界》、《塞尔达传说:终身的三角力量2》、《星战火狐》等。另外,商家还附送两个控制手柄。

3、指尖猴子(Fingerlings)

制造商Wowee推出的Fingerlings有六只颜色不同的小猴子、一只独角兽和一只小树獭。

这些小猴子会抓在孩子们的手上,根据孩子的行为动作眨眼睛、转动头部、发出声音。孩子们还可以摇摇它们,摸摸它们,哄它们入睡。

指尖猴子11月第一周的销量比10月增长了233%,上周则增长了55%。

eBay还特意建立了一个指尖猴子商店,将所有与指尖猴子相关的listing集合起来。

另外,尽管指尖猴子最初的零售价是14.99美元,但现在几乎很难原价买到了。

4、LuveBella机器人宝宝

LuvaBella 的这款机器人娃娃售价在100美元左右。她就像真的宝宝一样,挠她的肚子或脚丫,她会咯咯笑,还会打嗝。安静下来时,还能听到她的心跳。你还可以拿奶瓶喂她,就像真的婴儿一样。

孩子们还可以跟她说话,这个机器人宝宝能够识别100个左右单词和词组。

9月份以来,eBay上LuvaBella娃娃的搜索量上涨了204%。

5、孵蛋玩具(Hatchimal)

2017年,孵蛋玩具(Hatchimal)的制造商 Spin Master正致力于让每个父母都能为他们的孩子买到这款玩具。根据玩具颜色的不同,产品价格从70美元到100美元不等。

Hatchimal能让孩子们感受到两次惊喜,第一次是蛋孵化的时候,第二次是里面的毛茸玩具舒展开“长大”的时候。最有趣的是,里面的毛绒玩具孵化出来后,孩子们可以教它走路、跳舞、玩游戏、重复说话等。

6、新版孵蛋玩具(Hatchimals Surprise)

Hatchimals Surprise是SpinMaster 在2017年推出的新款。Hatchimals Surprise的蛋跟之前的一样大,但里面孵化出来的小生物变成了一对双胞胎。这对双胞胎可以相互交流、唱歌和应答,而且它们还有自己的个性。Hatchimals Surprise的建议零售价为99.99美元。

7、秒变咆哮脸玩具(Feisty Pets)

Feisty Pets看上去就是普通毛绒玩具的样子,但只要你拥抱它或挤压它,它天真的脸会马上变成凶恶的咆哮脸。这款玩具绝对是2017年儿童礼物必备款,有30种不同的款式可选。

Feisty Pets零售价为16.99美元,过去几天在eBay 上获得了数千的搜索量,鉴于Feisty Pet热度一直攀升,零售商可能会提高销售价格。

来源:雨果网

玩家有多少?你看:|