深度学习在搜狗无线搜索广告中的应用

作者:舒鹏

搜索引擎广告是用户获取网络信息的渠道之一,同时也是互联网收入的来源之一,通过传统的浅层模型对搜索广告进行预估排序已不能满足市场需求。近年来,深度学习在很多领域得到广泛应用并已取得较好的成果,本次演讲就是分享深度学习如何有效的运用在搜狗无线搜索广告中。

本次分享主要介绍深度学习在搜狗无线搜索广告中有哪些应用场景,以及分享了我们的一些成果,重点讲解了如何实现基于多模型融合的CTR预估,以及模型效果如何评估,最后和大家探讨DL、CTR 预估的特点及未来的一些方向。

一、深度学习在搜索广告中有哪些应用场景

比较典型的深度学习应用场景包括语音识别、人脸识别、博奕等,也可以应用于搜索广告中。首先介绍下搜索广告的基本架构,如下图:

首先用户查询。

查询词给Bidding Server处理,Bidding Server主要负责业务逻辑。例如某种广告在什么情况下不能展现,或这个客户同一个广告在什么时间段什么地域展现。

Bidding Server请求Retriever Server,Retriever Server主要负责召回,广告库很庞大(搜狗的广告库大概在几十亿这个规模),因为数据量非常大,所以需要根据一些算法从中找出和当前查询词最相关的一批广告,这就是Retriever Server做的事情。

Retriever Server处理完后,会把这些比较好的广告回传给Quality Server,Quality Server主要负责点击率预估和排序,此时的候选集数量相对较少,Quality Server会采用复杂的算法针对每条广告预估它当前场景的点击率,并据此排序。

Quality Server将排序结果的top回传给Retriever Server。

Retriever Server回传给Bidding Server。

Bidding Server做封装最后展示给用户。

以上过程中可应用到深度学习的场景如下:

二、基于多模型融合的CTR预估

2.1 CTR预估流程

CTR预估的流程图如下:

Data是原始数据,包括点击及查询日志,从这些原始数据里抽出一些特征。

Feature包括查询特征、广告特征、匹配特征。查询特征是和查询词相关的特征,查询发生的地域、时间等。广告特征是指广告本身的信息,例如:来自哪个客户,是哪个行业的,它的关键词是什么,它的标题、描述、网址是什么等各种信息。匹配特征是指查询词和广告的匹配关系。

然后会进行模型的训练,包括线性和非线性。

模型在线下训练完后会到线上,线上Server会实时做特征抽取并预估。例如:线上实时收到查询请求后,就会知道查询词是什么。前面讲的Retriever server,它会召回一系列广告,并抽出相关信息,比如广告的标题、关键词、描述等信息,有了这些信息后会利用加载的模型给出预估CTR,最终会进行Rank排序,从而筛选出满足指定条件的一些广告进行展示。

2.2 特征设计

  • 离散特征

离散特征是指把东西分散出来表示,比如OneHot,非常直观,例如用户当天所处的时间段,他和最终点击率有关系,那么我把一天24小时分成24个点,他在哪个小时就把哪个点点亮置1,这个特征就设计完了。它的刻画比较细致,设计比较简单,但他的特征非常稀疏,我们线上特征空间非常大,有上十亿,但任何一个请求场景到来,它真正有效的特征大概只有几百个,绝大部分都是空的。因为特征量非常大,不能设计太复杂的模型,否则无法用于线上。

离散特征总结:容易设计,刻画细致,特征稀疏,特征量巨大,模型复杂度受限。

  • 连续特征

还是以时间举例,离散特征会把它变成24个点,连续特征就会变成一个值,比如1、2、3、4、5一直到24,它只会占一个位置。需要仔细设计,很难找到一个直接的方法来描述查询词中包括哪些东西。它是定长的,所以一个请求场景到来,它有多少特征是固定的。不像离散特征是不定长,查询词不一样,有的是两个特征或三个特征,对于特征点可能有两个或三个,这对于我们后面的工作也有一定的影响。连续特征比较稠密,每个位置都会有值,它特征量相对较小,如果用连续特征设计的话可能需要几百维就可以,因此可以使用多种模型来训练。

连续特征总结:需要仔细设计,定长,特征稠密,特征量相对较小,可以使用多种模型训练。

2.3 模型类别

  • 线性

优点:简单、处理特征量大、稳定性好,缺点:不能学习特征间的交叉关系,需要自己去设计。比较典型的如Logistic Regression,有开源的工具包,部署简单且效果不错。

  • 非线性

优点:能够学习特征间非线性关系,缺点:模型复杂、计算耗时。

比如LR模型就算特征再多,它只是查表加在一起做指数运算就出来了,像DNN、GBDT就会非常复杂,导致计算过程比较慢。

总结:Logistic Regression即能处理连续值又能处理离散值。DNN几乎不能处理离散值,除非做特殊的预处理。

2.4 模型融合

前面讲过每个模型都有自己的特点:Logistic Regression 处理特征量大,大概在2010年前后开始大量应用于业界,很难有模型能完全超越它;DNN可以挖掘原来没有的东西。我们就想这两个模型能不能将优点进行融合,扬长避短,从而得到更好的结果。

第一种方案:CTR Bagging

有多个模型,将多个模型的输出CTR加权平均。

实现方法简单,模型之间不产生耦合。

可调参数有限,只能调Bagging权重的参数,不能调其他东西,所以改进空间相对较小。

第二种方案:模型融合

任一模型的输出作为另一模型的特征输入,彼此进行交叉。

实现方法复杂,模型之间有依赖关系,因依赖关系复杂,风险也比较高。

好处是实验方案较多,改进空间较大。

我们选了后一种方案,因为单纯CTR Bagging太过简单粗暴了。

2.5 模型融合的工程实现

目标

  • 可支持多个不同模型的加载和计算
  • 可支持模型之间的交叉和CTR的bagging
  • 可通过配置项随时调整模型融合方案
  • 避免不必要的重复操作,减少时间复杂度

解决方法(引入ModelFeature的概念)

  • 模型本身也看做一个抽象特征
  • 模型特征依赖于其他特征,通过计算得到新的特征
  • 模型特征输出可作为CTR,也可作为特征为其他模型使用
  • 限定ModelFeature的计算顺序,即可实现bagging模型交叉等功能

2.6 模型融合

模型融合流程图如下:

  1. 首先线下,将PV、Click、Session做成一个sample。
  2. 然后把sample做成特征,包括OneHot、CTR。
  3. 分别将OneHot、CTR传送到各自模块的train,就会得到相应的模型。
  4. 线上,Bidding Server 会经过 Retriever Server召回广告。
  5. 然后传给Quality Server进行计算,它是通过One Case存储和这个查询相关的所有信息。
  6. Quality Server会把One Case里的信息转换成One Hot特征。
  7. 然后将结果存到特征池,特征池包含所有特征。
  8. LR模型从特征池里读取数据,而后计算出CTR,还包括其他增量信息。
  9. 将这些回送到特征池。
  10. 此外DNN模型也会读取特征池里的信息,并将最终计算结果回传给特征池。
  11. CTR可以从特征池里直接取出,然后进行后续的操作。

我们去年将这套框架部署到线上,并持续进行改进,在线上运行了半年多,基本能适用于业务的发展:曾经上线了LR和DNN的交叉,还上线了LR和GBDT的融合。GBDT会将过程信息回传给LR,由LR完成最终输出。此架构经过生产系统的检验,运转正常。

2.7 模型效果评估

期间我们会做很多实验,比如DNN训练比较耗时,线上也比较耗时,因此我们会进行多种优化和评估。那么就涉及到一个问题,如何评估一个模型的好坏?线下指标主要采用AUC,定义如下图所示:

我们来分析下这个图,选定一系列阈值将对应一系列点对,形成一条曲线,曲线下方的面积总和就是AUC的值:红线就是纯随机的结果,对应的AUC是0.5;模型越好,曲线离左上角就越近。这个值在我们模型评估里用得非常多,该值考察的是模型预估的排序能力,它会把模型预估排序结果和实际结果进行比对运算。该值很难优化,一般而言,AUC高,模型的排序能力就强。

线下指标AUC很重要,但我们发现单纯靠这指标也是有问题的,不一定是我们的线上模型出了问题,可能是其他的问题。做广告预估,AUC是线下指标,除此之外,最核心的指标是上线收益,有时这两个指标会有不一致的地方,我们也尝试去定位,可能的原因主要有:

Survivorship bias问题:线下训练时所有的数据都是线上模型筛选过的比较好的样本,是我们展示过的比较好的广告,一次查询三条左右,但实际上到了线上之后,面临的场景完全不一样。前面讲过RS筛选出最多近千条广告,这些广告都会让模型去评判它的CTR大概是多少,但实际上训练的样本只有最终的三条,对于特别差的广告模型其实是没有经验的。如果一个模型只适用于对比较好的广告进行排序,就会在线上表现很差,因为从来没有见过那些特别差的广告是什么样的,就会做误判。

特征覆盖率的问题,例如:我们有个特征是和这个广告自身ID相关的,该信息在在线下都能拿到,但真正到了线上之后,因为广告库非常大,很多广告是未展示过的,相关的信息可能会缺失,原有的特征就会失效,线上该特征的覆盖率比较低,最终将不会发挥作用。

2.8、并行化训练

做DNN会遇到各种各样的问题,尤其是数据量的问题。大家都知道模型依赖的数据量越大效果越好,因为能知道更多的信息,从而提升模型稳定性,所以我们就会涉及到并行化训练的事情。

1.加大数据量,提升模型稳定性

我们做搜索广告有一个重要指标:覆盖率,是指此情况下是否需要显示广告。覆盖率高了,用户可能会不满意,而且多出来那些广告多半不太好;但如果覆盖率很低,又等于没赚到钱。这个指标很重要,所以我们希望融合模型上到线上后覆盖率是可预测的。

我们发现这个融合模型会有自己的特点,上到线上之后会有些波动。例如:今天我们刚把模型覆盖率调好了,但第二天它又变了。然后我们分析,可能是因为数据量的问题,需要在一个更大的数据集上训练来提升模型的稳定性。

2.加大数据量,提升模型收益

其实就是见多识广的意思,模型见得多,碰到的情况多,在遇到新问题的时候,就知道用什么方法去解决它,就能更合理的预估结果。

我们调研了一些方案,如下:

  • Caffe只支持单机单卡
  • TensorFlow不支持较大BatchSize
  • MxNet支持多机多卡,底层C++,上层Python接口

MxNet我们用得还不错,基本能达到预期的效果。

三、若干思考

3.1 Deep Learing的强项

输入不规整,而结果确定。

例如:图像理解,这个图像到底是什么,人很难描述出到底是哪些指标表明它是一个人脸还是猫或狗。但结果非常确定,任何人看一眼就知道图片是什么,没有争议。

具体到我们的广告场景,广告特征都是有具体的含义。例如:时间信息,说是几点就是几点,客户的关键词信息,它写的是什么就是什么,文本匹配度是多少,是高还是低,都有确定的含义。

3.2 CTR预估

输入含义明确,场景相关,结果以用户为导向。

例如:一个查询词,出现一条广告,大家来评判它是好是坏,其实它的结果是因人而异的,有人觉得结果很好,而有人却觉得一般,它没有一个客观度量的标准。所以我们认为CTR预估跟传统的DL应用场景不太一样。

我们DNN用到线上后,收益大概提升了百分之五左右,但相对Deep Learing在其他场景的应用,这个提升还是少了些。语音输入法很早就有人做,因为准确率的问题一直没有太大应用,但Deep Learing出来后,比如讯飞及我们搜狗的语音输入法,用起来很不错,准确率相比之前提高了一大截。

3.3 未来方向

Deep Learing既然有这些特性,我们会根据特定的业务场景进行应用,比如在某些情况下把它用上去效果会很好,我们还想做一些模型融合的事情。

我们做实验发现把DNN和LR融合后,最好的结果相比LR本身,AUC大概高不到一个百分点。我们也尝试过直接把DNN模型用到线上去,效果很差,就算在线下跟LR可比,但到线上后会有一系列问题,不管是从覆盖率还是从最终收益都会有较大的差异,这是我们在搜狗无线搜索数据上得出的实验结论,大家在各自的业务场景下可能有所区别。

如果你们没有足够经验去手工做各种交叉特征的设计,直接用DNN可能会有好的成果。如果在非常成熟的模型上做,可能需要考虑下,收益预期不要太高。

文章来源36大数据,www.36dsj.com ,微信号dashuju36 ,36大数据是一个专注大数据创业、大数据技术与分析、大数据商业与应用的网站。分享大数据的干货教程和大数据应用案例,提供大数据分析工具和资料下载,解决大数据产业链上的创业、技术、分析、商业、应用等问题,为大数据产业链上的公司和数据行业从业人员提供支持与服务。

End.

必应Bing搜索大规模访问故障因DNS导致 手动解决下即可

23日下午,微软搜索引擎必应(bing)在国内出现了大规模无法访问的现象,具体原因未知。有国内网友反应可能是DNS问题。截止到目前为止,必应搜索的主服务仍未完全恢复。

对此,微软必应相关人员表示,由于百度流量冲向必应,必应暂时无法使用,目前还未恢复,必应已经组织人员修复。

此前,《搜索引擎百度已死》一文引起热议,指百度搜索结果一半以上指向自家产品,尤其是数量庞大、但质量堪忧的百家号。百度回应称,目前百度搜索结果中,百家号内容全站占比小于 10%,并表示这款产品是为了解决移动互联网割裂。

实际上这并不是必应第一次在国内出现无法访问的故障。2016年1月28日时,国内多个省市的电信和部分联通网络就无法打开必应搜索引擎(cn.bing.com),使用代理则可正常打开。当时根据Traceroute测试,微软IP地址是在中国境内被屏蔽,可以排除微软服务器的故障。

据悉,微软必应搜索此前在美国市场份额达到了33%,在全球市场份额达到了9%,据2018年12月最新数据,在中国市场必应搜索的份额为2%。

一些解决办法(转自老D网络):

一、用必应(Bing)临时域名:

www2.bing.com

或者

www4.bing.com

二、修改hosts文件:

用户只需要暂时修改下host然后坐等微软服务器恢复后再删除即可,这样就不需要再更换成其他搜索了。

13.107.21.200 cn.bing.com

修改后如果浏览器依然无法正常打开请直接重启系统,重启后再尝试打开必应搜索看看能否恢复正常访问。

三、修改DNS服务器

把DNS修改成谷歌的:8.8.8.8

或者用Cloudflare的:1.1.1.1

四、全局VPN

既然都有VPN了,为什么不用谷歌呢…

注意:是全局,因为Bing的域名目前并没有在名单列表里。

更要注意,VPN用不好将是违法的,

根据《中华人民共和国计算机信息网络国际联网管理暂行规定》第六条,“计算机信息网络直接进行国际联网,必须使用邮电部国家公用电信网提供的国际出入口信道。任何单位和个人不得自行建立或者使用其他信道进行国际联网”。

公安机关可对违反此规定的人给予警告,并处以最高15000元罚款。

另外,如果还想坚持使用百度搜索的,可以下载百度出品的“简单搜索”APP,虽不支持PC端,目前还是比较良心的,我当手机浏览器用。以下是搜索“必应”的结果:

尤其是老人、孩子推荐使用,这也是百度设计此产品的初衷。

综合自:中国科技新闻、老D网络、日本E视界

百度落实搜索新规 付费推广规范成果显著

距6月25日国家互联网信息办公室发布《互联网信息搜索服务管理规定》(下文简称《规定》)已经过去一周多了,百度在第一时间明确表示将在建立健全信息审核等信息安全管理制度、付费搜索信息服务资质审查、用户权益保障制度等方面加强内部管理,提升网民搜索体验。从百度目前的推广效果来看,百度已全面落实了《规定》中的具体要求,付费推广规范成果显著。

百度搜索“电脑”截图

以“电脑”为关键词在百度进行搜索,可以看到页面中增加了明显的风险提示、“商业推广”标识,明确了评价、举报入口,已达到网信办搜索新规要求。

《规定》出台当天,百度推广官方微博做出回应,表示将切实按照网信办相关法律法规加强自身管理,并致力于与政府机构、广大网民以及社会各界共同努力净化网络环境,坚持为网民提供公正的权威结果,重申网民监督举报通道,邀请网民对百度的工作进行监督。

《规定》要求互联网信息搜索服务提供者,明确付费搜索信息页面比例上限,醒目区分自然搜索结果与付费搜索信息,对付费搜索信息逐条加注显著标识。

每页最多四条商业推广信息

针对上述要求,百度在5月整改期间已经落实每页商业推广数量不超过30%,这也意味着每页推广数量不超过4条。除此之外,搜狗和360官方尚未公布相关整改措施,但从搜索结果展示情况看,业内搜索页面的展示也在向百度靠近,加强了对商业推广标识的升级。

此外,《规定》还提出互联网信息搜索服务提供者应当依法查验客户有关资质。因此,保证推广内容的合法性和真实性成为搜索引擎行业重点关注的内容。从目前各搜索引擎公开信息显示,仅百度在整改期间对医疗、药品、保健品以及食品等四大行业制定的严苛了审查资质,百度要求推广主体强制提交包括营业执照、ICP证等10多种证件,还将进行真实性验证、对公账户的一致性验证。业内专家认为,百度整改期间一系列高标准、严苛的审查规定为国内搜索引擎的规范化提供了重要参考标准。

网民权益保障体系

《规定》强化了公众的监督权利,提出互联网信息搜索服务提供者应当建立健全公众投诉、举报和用户权益保障制度。目前,各搜索企业相继宣布了网民监督投诉的快速通道,但除百度已经在明显位置设置投诉、举报入口外,其他搜索引擎仍未有明显入口。同时,搜索引擎行业内已经开始加大在网民权益保障计划方面的投入力度,值得一提的是,百度在前不久的中国互联网大会上荣获网民权益保障优秀奖。

北京理工大学教授、弱势群体经济学创始人胡星斗认为,《规定》的发布,促使搜索引擎开始了一场自我调整和变革。在过去很长一段时间,搜索引擎实际上处于散养状态,这也是决定了这次搜索行业的调整注定是痛苦的,不过对于百度这样的搜索引擎企业来说,规范化会让他们以后的路更加畅通。

《决定》标志着政府加强了对搜索行业的监管力度,也为国内搜索引擎提出更多要求,搜索引擎企业唯有要不断完善产品,树立正确的企业价值观,才能适应互联网不断发展的潮流。

文/IT科技(简书作者)

原文链接:http://www.jianshu.com/p/6e98f8d46dba

声明:CSDN登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

搜索竞价推广SEM效果不理想的五大原因

在SEM竞价推广时,不是有投入就一定会有效果,很多同学在SEM培训时对于SEM竞价推广投入效果不理想的原因存在疑惑,今天,优就业IT培训的老师为大家总结以下几点原因:

一、有同行的恶意点击广告

很多企业或者公司在百度竞价推广中都避免不了的是同行的恶意点击,只是现在比以前情况好一些了,但是仍然存在这样的恶意点击,为了减少这样的情况发生,建议在关键词出价的时候要跟前台相结合,推广词的排名排名在首页前五名就可以,因为第一二名的恶意点击是非常严重的,同时也要对网站的访客进行分析,一旦发现问题及时处理,避免账户受到影响。

二、推广页面的打开速度非常缓慢

很多用户打开推广页面的打开时间超过“8秒”时,用户就可能选择关闭页面,这个时候用户的选择有很多成本很低,这样的点击推广费用花了但是用户却连网站页面都没看到,这样的花钱是非常不值,所以在推广工作中,一定要对推广页面的空间打开速度进行考察,保证能够快速正常的访问,这也是用户通过推广在网站上发生一切行为的前提。

三、老客户进入网站没有进行二次转化就离开

老客户第二次通过推广进入网站,说明他对网站有了一定的信任度,对产品和售后服务还比较满意,那他进入网站目的有哪些?

1.查看企业最近有没有优惠产品和新增服务,网站可以定期的做一些优惠活动来满足这些客户,吸引他们再次购买。

2.要进行新的业务拓展需要新的产品,这部分客户产品价格合适就可以产生转化。

为了降低成本,这些客户会拿同行业产品价格服务与我们的产品价格服务进行对比,一旦同行业的价格低,这些客户就有可能流失,这个时候就要对产品附加价值进行提升,这也是产品和服务差异化的必要性。

四、新客户访问推广页面,没有产生咨询转化就离开

新客户选择不熟悉的产品时,一般会对产品的价格、品牌、售后、信誉度进行考察,在这里尤其敏感的是产品的价格和品牌,在目前(产品价格没有优势、品牌度不高、售后服务客户不深信)的情况下,客户很容易就选择离开,那么该怎么解决呢?笔者认为我们可以将产品塑造更高的价值(性能、特色服务)来吸引客户;为客户定制产品最省钱的方案;为新客户提供优惠政策,让新客户觉得选择我们的产品物超所值,然后才能达成一次或多次合作。

五、推广页面不是客户所需要的内容

参加关键词推广的页面内容不能满足客户或者说不是客户想要的时候,客户会毫不犹豫的选择离开,这就要求推广页面要与推广的关键词高度相关,拒绝标题党(内容与标题严重不符),用时也要满足大部分用户的需求;那么是不是所有的需求都满足呢?答案是否定的,一个页面是无法满足多样性需求的,当推广页面的内容不是用户想要的时候,我们是否有对用户进行引导至其它页面,或者添加页面鲜明的咨询按钮呢。

今日问答| 淘宝客推广太多 会影响自然搜索吗

1、问:我有款新品流量爆起来,来源是一个错误的属性词引起的,要不要马上把属性改过来?

答:修改属性肯定会降权,重新上一个属性正确的新链接。在旧链接做一个关联到新链接,新链接流量起来后再删除旧链接。

2、问:店铺异常情况,昨天我的竞争对手上活动,但是我做了相应的利润释放之后销售并没有影响,排名依旧还在23排名位置一切正常。他活动结束对我销售影响昨天不大,可是今天店铺流量突然下滑百分20…销售突降百分之50,看了主款的评价和问大家都没有问题,销售排名依旧压着他。但是今天销售排名跌到了48,我应该从哪里排查 其次我应该如何应对?求指点。

答:爆款在遇到店铺流量突然下滑的情况下,首先是要增加直通车广告预算 ,以保证销量不下滑,否则流量下滑会越来越快。再去分析大盘和店铺最近销售的数据情况,找到问题解决他。

3、问 :老师,dsr低于行业平均值对搜索权重有什么影响的呢?

答:首先DSR对权重肯定是有影响的,但是搜索权重的核心是点击率、转化率,收藏加购,最大的权重是销量。DSR还会影响店铺的转化,会增加推广成本。

4、问:淘宝客推广太多,会影响自然搜索吗?

答:淘客的销量不会对搜索权重有减分,淘客推广对搜索不加权。

5、问:有一个小爆款类目排名第四,24号的时候改了标题,只是把“加厚”两个字改为近期飙升词,24-25号看展现量就有下降,但流量没降,直到26号-27号的流量一直降3分之一,前三名没降比例这么大,很不放心,您觉得我有必要把原来的加厚两字换回去吗?

答:爆款宝贝不要修改标题及属性,一旦修改绝对降权。现在唯一可以做的是加投广告费,用飙升词投直通车,把你的日销量拉到跟你修改标题之前一样的你的流量,估计差不多十天的时间权重就可以回升。

6、问:新品过了28天,权重是不是会下降很多呢?

答:宝贝处于新品期在同样的指标下,新品权重确实要高一点,但宝贝权重下降,和你过了新品期没有什么关系。过了新品期的宝贝,权重下降,归根结底,在同品类中,还是日销层级下降,导致权重下降。

7、问:店铺一直在第6级100多名,上七级一会上不了 要刷上去吗?

答:不建议去刷店铺层级,店铺的核心在流量和转化率。

店铺层级和转化率没有关系。虽然层级对单品有微弱的加权,但是提高单品本身竞争力才是获取免费流量的核心。

8、问:之前有个差评,最近月销掉的比较厉害,掉到top5,现在被压下去了想把月销提上去,根据以前的经验,量上去了 平销能稳定,可以吗?

答:只要大盘趋势不变,没有竞品发起挑战,你月销提上去了,流量及平销肯定可以稳定。

9、问:淘宝客设置的优惠券会不会影响最低价?

答:不管什么渠道,店铺优惠券不影响最低价,商品优惠券影响最低价。

10、问:今天新品第一个下架日,然后直通车几个大词也都是10分了。评价晒图都有了真实转化也有,今天直通车是不是要把排名卡前面拉更多流量了!?第一次推爆款掌握不好节奏?

答:新品第一周,基础销量和评价都不多,不建议直通车迅速拉爆流量,可以适当提升直通车关键词排名,随时注意订单数量,保持每天的递增就可以了。

11、问:请问下,A店铺来的客户,能发B店铺的连接引导去B店铺购买吗?AB都是天猫店?

答:天猫和天猫店铺之间是可以互导链接的,天猫和C店之间是不能互导的。

12、问:我有一个一样的产品,2个链接,一个链接之前做过淘客有差不多1万的评价,但是降权超过一个月,相当于只有评价没有销量了,另外一个链接是老的链接,没有降权过,但是没有销量,评价也少,现在我要重新推的话是选哪个链接比较好?

答:第一降过权的链接不要再操作了,有过处罚记录的链接很难操作起来。你的第二个链接没有销量没有评价,肯定也没什么流量的,建议是重新上新链接。

13、问:请教一下您,有一个小爆款,月销2千,由于是帮工厂清库存的,现在库存不多,我们能用新款来替换这个链接吗,类目属性不改,主图片跟详情不一样,有什么办法吗?

答:你这是换宝贝,一般建议上新链接。一定要做的话,就通过加sku来做。新品的主图,详情加到后面,老SKU库存售罄后,直接往前移替换。新品SKU加上去后,一定要快速让新SKU快速产生日销量,要不然老SKU下架后,权重会迅速下跌。

14、问:麻烦问下,一个产品是爆款现在1万多笔销量,想再加个口味,相当于客户可以选择两种口味,这样会不会降权呢。

答:放心增加,不会影响权重。

15、问:关键词进来加购 第二天付款 这个算是关键词转化吗

答:购物车进来的成交是计购物车转化,但同时又有关键词权重,并且比当天搜索关键词成交的权重要更高。

Hi,伙伴们

手机时代来临已经服务7年的谷歌即时搜索宣布退役

如今是智能手机时代,已经退去的PC时代的产物逐渐的被替代,曾经互联网行业的霸主百度也逐渐的被其他互联网公司超越。而更多PC时代的互联网功能逐渐被淘汰。

在2009年12月份被首次推出时,谷歌即时搜索曾被认为是搜索的未来,通过动态加载搜索结果,谷歌即时搜索为用户省下了很多宝贵的时间,这个功能的出现在当时来讲是个大新闻,这项功能向外界展示了谷歌强大的技术实力,以及核心产品的持续能力。

不过现在,已经为人们服务了差不多7年的谷歌即时搜索就要退役了。因为越来越多的搜索发生在手机上(移动端的谷歌搜索从未引入过即时搜索功能),所以在移动设备和桌面上,只维护一个搜索版本似乎更有意义。

谷歌解释称:追溯到7年前,我们推出了谷歌即时搜索,那时我们的目的是让人们尽可能快地获取到他们需要的信息,而时至今日,越来越多的搜索发生在手机上,这是一种有着与在桌面上截然不同的输入和交互的搜索方式,有鉴于此,我们决定让即时搜索退役,以便我们可以集中精力,让搜索在任何设备上都高效。

谷歌的这一做法虽然可能有些矫枉过正,不过对于用户来讲,多点一下鼠标,或者多按一下键盘上的回车键,也没什么大不了的。

全亚马逊卖家都惊呆了 关键词搜索潜规则

跨境电商资讯,敬请关注微信公众号 【跨境电商赢商荟】

不知道小伙伴们还记不记得,前阵子 BQool 刚发了一篇关于 Search Term 的操作技巧,还没看过的小伙伴可以参考以下连结:

6 个技巧教你如何提升关键词优化效果!

现在 BQool 又发现 Search Term 的潜规则啦,亚马逊没告诉你的!开头就先来个小编总结,就是你的关键词是越精越好,不要滥竽充数的。概念类似 Bullet Points。

亚马逊 Bullet Points 规则改变!字数大幅调降!

大家都知道,Search Terms 每一行有 1000 字元空间可以填写,大家也都知道每一行只填一个单词肯定不行的,太浪费空间了!但是到底怎麽样填写才是最有效地利用空间?需要填满填好吗?以下内容路过千万不要错过,跟着 BQool 比酷尔一起掀开亚马逊运算系统的神秘面纱!

很多人都知道亚马逊不可能将 Search Terms 填满的 5000 字元(大约 800个单词)都编入关键词索引范围,但卖家们为了利用空间,还是会尽量的填好填满。亚马逊最多会采用多少个字呢?一直以来在卖家社群都是谣传亚马逊最多采用 250个字元(大约 40个单词),但一直尚未被亚马逊官方证实。

最近这个传言已经被亚马逊官方证实了!以下这封电邮是一位亚马逊卖家收到来自亚马客服的官方回应(Amazon Customer Support),BQool 比酷尔仅翻译重点的地方给大家,不重要的自己看看呗~

Dear Seller,

Thank you for writing back to us and letting us know that the issue has been fixed when the keywords are shortened to no more than 250 characters.

Please be informed that I have contacted our concerned team and received a response stating that asthe Search team is constantly working to improve the relevance of search results for our customers. This help our sellers too, since we can remove non-relevant products and let sellers compete with smaller result sets of only relevant items.

关键词搜索团队一直致力于提高搜索词和搜索结果的相关性给买家。这个对卖家也是有帮助的,因为亚马逊可以移除毫无相关性的商品,让卖家可以只跟比较准确相关性的商品竞争。

Our concerned team is running a project on this to help optimize our approach, and have not yet finalized any communication, but that is still in progress.

As of now this is working as designed, the system ignores any generic keywords over 250 bytes for all the categories including health and personal and beauty. In addition, we were also informed thatour system do not do partial matching of Generic Keywords fields and it is unlikely that anyone will search for paragraphs of keywords in their entirety.

所有商品类别包含了(Health and Personal)和(Beauty)类别,如果你的关键词(Generic Keywords)超过 250个字元,系统会忽略超过的部份。另外,由于一般搜索并不会输入长篇大论的关键词(Paragraphs of Keywords),所以在一般关键词(Generic Keywords)的部份系统也不会做部份批配(Partial Matching),而是做精准批配

AS per the help seller can put 1000 characters but our system can index only 250 characters at maximum.

Please know that we currently do not have an option of indexing the keywords to more than 250 characters. I apologize if this policy doesn’t meet your business needs.

虽然现在 Search Term 每行可以填入 1000个字元,但系统最多只能把 250个字元编入索引范围。非常抱歉,我们现在没有办法索引超过 250个字元。

剩下的比较官腔,在说明此位卖家提出需要索引超过250个字元的需求,但被亚马逊拒绝的故事,大家自己看看:

I do understand that this may help you for better buyer experience. However, at this time, this feature is not available for our sellers.

As to make sure that you are heard, I have passed your message to the Business team as a feedback, so they are aware of your interest.

As we continue to improve both our platform and our service, input from Sellers like you is valuable. I truly appreciate your suggestion as this is a great input for Amazon to work upon and this can actually be of great help to Sellers as well as Buyers.

If there are changes pertaining to this, Sellers will be notified via Seller Central. We encourage you to keep checking, as functionality is often refined over time.

We strive to make your selling experience on Amazon as eventful as possible and therefore we are willing to extend any help that you may need at any time.

I personally wish I was able to do a lot more in this regard however, as the Policies are determined by our Business team we at Seller Support would not be able to influence those decisions.

We wish you great success in your future endeavors. Have a wonderful day!

最多只能匹配 250字元的意义和目的

现在看起来是亚马逊只会批配前 250个字元,并不是所有填写空间的 5000个字元。五行的 Search Term 都是套用这个潜规则的。

这次的更新有几个重点:

  • 一般关键词(Generic Keywords)会标准化,同一个关键词的大小写和复数形态都是多余的,不应该被填入

  • Search Term 不用填写在标题(Title),商品描述(Deion),主题关键词(Subject Keywords)已经有的字词

  • 亚马逊将忽略超过 250个字元的部份,适用于所有商品类别。

  • 由于一般搜索并不会输入长篇大论的关键词(Paragraphs of Keywords),所以在一般关键词(Generic Keywords)的部份系统也不会继续做部份批配(Partial Matching),而是做精准批配。

这表示卖家要更清楚地知道到自己商品页面有哪些字词,来避免关键词填写的重复导致浪费。250个字元差不多是 40个单词左右,并不是非常多的数量,要如何在自然搜索中脱颖而出,善用空间将会是一大课题。

如何知道某个关键词是否有在自己商品索引范围内

手动 ASIN 反查法(Reverse ASIN Lookup)

以这个 ASIN :B014Q8IYFO 为范例,不知道 ASIN 的伙伴们可以在商品地址中找到 10码的 ASIN 码。

https://www.amazon.com/GranKitchen-Apple-Slicer-Cutter-Divider/dp/B014Q8IYFO/ref=sr_1_12?s=home-garden&ie=UTF8&qid=1497246304&sr=1-12&keywords=apple+slicer

接着到亚马逊的搜索页面,输入 ASIN 在加上"+"和"关键词",来确认这个商品索引范围是否包含这个输入的关键词。例如想要知道一个苹果切片器(Apple Slicer)是否有包含"Slicer"这个关键词可以在搜索栏输入"B014Q8IYFO+slicer",如下图搜索结果有这个商品表示这个 B014Q8IYFO 商品索引范围有包含"Slicer"这个关键词

这代表你的 ASIN 跟这个关键字,有被亚马逊索引!恭喜!

如果输入的关键词不再索引范围内,就不会有搜索结果。例如用一样的商品(ASIN),换个关键词来测试,在搜索栏输入"B014Q8IYFO+manzana"(manzana 是苹果的西班牙文),可以看到下图搜索结果是查询不到任何商品的。

显示为:Your search “B014Q8IYFO+manzana” did not match any products,表示这个 B014Q8IYFO 商品中并不包含"manzana"这个字词。

这个方法可以用在亚马逊任何商品上,只能帮助你确认自己或竞争对手的商品索引范围内是否含有某些特定的关键词,并没有办法产出新的关键词给你。

对于这个说法,有卖家测试了发现是有限制的没错,例如此位卖家测试大概是 280个字元被编入索引范围。

有人当你的 Search Term 填入超过 250个字元(不包含空白格),Bullet points 的字词会被屏蔽,此为卖家就是利用 ASIN +"关键词"的方法实验,发现在 Search Term 填写太多会造成 Bullet points 的字词被屏蔽, Bullet points 的字词不再是此 ASIN 的关键词。

有人试了说索引范围可以超过 250个字元,此为卖家填满了 5000个字元,表示有 80~85% 都有被索引到。

对于这个说法,目前是众说纷纭的状况,各位卖家可以试试自己的 Listing ,欢迎在此篇留言和大家分享你的实验结果!

小编总结

这样的更新不管是对卖家,买家或是亚马逊都是有好的影响,可以让搜索结果的相关性提高,在搜索结果中尽量的减少不相关商品的出现。对于卖家来说,最大的课题是要花更多的时间优化关键词,包括了自然搜索和付费广告的关键词,让关键词越精准越好。依照亚马逊搜索引擎的规则,好的关键词应该是要展现量低(Impressions)但转化率要高(Conversions),小伙伴们可以挑选几个商品,试试关键词优化,再看看报表上的关键词表现有没有好转。

版权声明

文章内容整合来源:BQool

若有侵权,请后台联系小编

微信小程序品牌搜索开放

“ 品牌搜索,让用户便捷地直达品牌商家的服务。为进一步方便用户获取服务,帮助商家触达用户,该功能面向品牌开放运营。”

01

功能介绍

开通品牌搜索的商家将获得品牌官方区和微主页的能力:

品牌官方区,是获得认证的品牌在搜索下的专属区域,用户获取品牌信息和服务的官方渠道。

微主页,是微信提供的标准化小程序,包括品牌介绍、主营产品、服务、联系方式等模块。

完成品牌官方区和微主页的配置并通过审核,品牌搜索即可生效。用户打开“搜一搜”或“小程序”,搜索品牌名称便可直达。www.xiguakeji.cc西瓜科技

02

开通条件

符合以下条件的商家可以开通品牌搜索:

公众号获得商标保护

非金融、医疗行业

03

开通流程

确认符合上述条件后,登录公众平台完成以下步骤:

阅读相关条款,开通“搜索开放平台”插件

认证品牌名称,开通微主页小程序

配置微主页和品牌官方区

04

常见问题

为什么要开通微主页小程序?

微主页是展示商家官方信息和服务的标准化小程序,是用户获取商家信息和服务的重要来源。开通微主页有助于树立品牌形象,加强用户连接。

微主页小程序如何开通?

开通需要三步:公众号管理员扫码 -> 认证品牌名称 -> 完善小程序信息并提交审核。审核通过后即可开通。

为什么我的公众号符合开通条件,但无法获得认证?

不同公众号拥有相同商标时,优先认证服务号;如有多个服务号,优先认证粉丝数最多的公众号。其他拥有该商标的公众号暂时无法获得认证。

www.xiguakeji.cc西瓜科技|落地云小程序开发

达观数据 搜你所想 之用户搜索意图识别

人类自诞生以来就伴随着各种信息的生产和获取,如今这个信息爆炸的 DT 时代,人们更是被各种信息所包围。我们知道,人获取信息的方式主要有被动获取和主动获取两种,其中被动获取就是推荐的方式、主动获取就是搜索的方式。

获取信息是人类认知世界、生存发展的刚需,搜索就是最明确的一种方式,其体现的动作就是“出去找”,找食物、找地点等,到了互联网时代,搜索引擎(Search Engine)就是满足找信息这个需求的最好工具,你输入想要找的内容(即在搜索框里输入查询词,或称为 Query),搜索引擎快速的给你最好的结果,这样的刚需催生了谷歌、百度这样的互联网巨头。

此次结合达观在垂直搜索引擎建设方面的经验,围绕以下内容进行展开:

  1. 用户搜索意图的理解及其难点解析
  2. 如何识别用户搜索意图
  3. 达观数据用户搜索意图理解引擎介绍

一、用户搜索意图的理解及其难点解析

首先,从偏技术的角度来看看搜索引擎发展的几个阶段:

第一个阶段,使用倒排索引解决匹配的效率问题,使用文档模型解决基本的相关性,使搜索引擎变得可用、可扩展,代表比如 Infoseek 。但这一阶段只保证了基本的文字相关性,搜索的真正效果是无法保证的。

第二个阶段,使用超链模型,比如谷歌的 pagerank 和百度的超链分析。解决权威性问题,使搜索质量提升一个档次。从这一阶段搜索引擎开始快速普及与并进入商业化,为谷歌和百度这样的公司带来了丰厚的利润。

第三个阶段,一方面使用更复杂的规则和机器学习排序模型,综合考虑了用户的行为特征,如商品评论、点赞、收藏、购买等,使得搜索引擎的结果再次提升一个档次,这些在电商等垂直搜索上表现的会更加明显;另一方面,基于各种先进的自然语言处理技术,充分挖掘用户搜索行为日志,对 query 进行分析改写以召回更多更好的结果。

第四个阶段,从“有框”搜索时代步入更加人工智能的“无框”搜索时代。人机交互方式也将更多的是问答式的自然语言加语音的方式,而搜索引擎也更像一个智能机器人,理解人的自然语言问题,提供更加直接有效的知识和答案。这一阶段目前尚处于起步阶段,谷歌、Amazon 以及一些优秀的创业公司都在进行积极的探索。

搜索引擎涉及的技术非常繁复,既有工程架构方面的,又有算法策略方面的。综合来讲,一个搜索引擎的技术构建主要包含三大部分:

  1. 对 query 的理解;
  2. 对内容(文档)的理解;
  3. 对 query 和内容(文档)的匹配和排序。

本片文章主要探讨其中的 Query Understanding,即对 query 的理解。对 query 的理解, 换句话说就是对用户搜索意图的理解。先看垂直搜索中的一些例子:

“附近的特价酒店”

“上海到扬州高速怎么走”

“小龙虾最新报价”

“华为最新款手机”

“水”

这几个例子都不能直接根据 query 的字面意思去搜索,而是要理解用户输入文字背后的真实意图。不过要准确理解 query 背后的用户搜索意图可不是那么容易的。

我们来分析一下理解用户搜索词背后的真实意图识别存在哪些难点:

  1. 用户输入不规范,输入方式多样化,使用自然语言查询,甚至非标准的自然语言。比如上面提到的“附近的特价酒店” 、“上海到扬州高速怎么走”都是自然语言查询的例子,又如 “披星 ( ) 月”、“吾尝终日而思矣, 下面“。
  2. 用户的查询词表现出多意图,比如用户搜索“变形金刚”,是指变形金刚的电影还是游戏? 搜索“仙剑奇侠传”是指游戏还是游戏软件? 电影? 小说? 电商网站搜索“水”是指矿泉水?还是女生用的护肤水?
  3. 意图强度,表现为不同用户对相同的查询有不同的需求强度。比如:宫保鸡丁。宫保鸡丁菜,菜谱需求占 90%。宫保鸡丁歌曲,歌曲下载需求占 10%。又比如:荷塘月色。荷塘月色歌曲,歌曲下载需求占 70%。荷塘月色小区,房产需求占 20%。荷塘月色菜,菜谱需求占 10%。
  4. 意图存在时效性变化,就是随着时间的推移一些查询词的意图会发生变化。比如:华为 P10 国行版 3 月 24 日上市。3 月 21 日的查询意图:新闻 90%,百科 10%3 月 24 日的查询意图:新闻 70%,购买 25%,百科 5%5 月 1 日的查询意图:购买 50%,资讯 40%,其他 10%5 年以后的查询意图:百科 100%。
  5. 数据冷启动的问题,用户行为数据较少时,很难准确获取用户的搜索意图。
  6. 没有固定的评估的标准,CTR、MAP、MRR、nDCG 这些可以量化的指标主要是针对搜索引擎的整体效果的,具体到用户意图的预测上并没有标准的指标。

二、如何识别用户搜索意图

首先我们来看一下用户搜索意图有哪些分类。一般把搜索意图归类为 3 种类型:导航类、信息类和事务类。雅虎的研究人员在此基础上做了细化,将用户搜索意图划分如下类别

1. 导航类:用户明确要去某个站点,但又不想自己输入 URL,比如用户搜索“新浪网“。

2. 信息类:可以细分为如下几种子类型。

1)直接型:用户想知道关于一个话题某个方面明确的信息,比如“地球为什么是圆的”、“哪些水果维生素含量高”。

2)间接型:用户想了解关于某个话题的任意方面的信息,比如粉丝搜索“黄晓明”。

3)建议型:用户希望能够搜索到一些建议、意见或者某方面的指导,比如“如何选股票”。

4)定位型:用户希望了解在现实生活中哪里可以找到某些产品或服务,比如“汽车维修”。

5)列表型:用户希望找到一批能够满足需求的信息,比如“陆家嘴附近的酒店”。

3. 资源类:这种类型的搜索目的是希望能够从网上获取某种资源,又可以细分为以下几种子类型。

1)下载型:希望从网络某个地方下载想要的产品或者服务,比如“USB 驱动下载”。

2)娱乐型:用户出于消遣的目的希望获得一些有关信息,比如“益智小游戏”。

3)交互型:用户希望使用某个软件或服务提供的结果,用户希望找到一个网站,这个网站上可以直接计算房贷利息。

4)获取型:用户希望获取一种资源,这种资源的使用场合不限于电脑,比如“麦当劳优惠券”,用户希望搜到某个产品的折扣券,打印后在现实生活中使用。

查询意图理解的过程就是结合用户历史行为数据对 query 进行各种分析处理的过程,包括查询纠错、查询词自动提示、查询扩展,查询自动分类、语义标签等。

上面这张图是一个具体的例子说明 query understanding 的工作过程:

稍微解释一下这张图:

  1. 用户的原始 query 是 “michal jrdan”
  2. Query Correction 模块进行拼写纠错后的结果为:“Michael Jordan”
  3. Query Suggestion 模块进行下拉提示的结果为:“Michael Jordan berkley”和 “Michael Jordan NBA”,假设用户选择了“Michael Jordan berkley”
  4. Query Expansion 模型进行查询扩展后的结果为:“Michael Jordan berkley”和 “Michael I. Jordan berkley”
  5. Query Classification 模块进行查询分类的结果为:academic
  6. 最后语义标签(Semantic Tagging)模块进行命名实体识别、属性识别后的结果为:[Michael Jordan: 人名][berkley:location]:academic

下面我们逐一的来看看这面这些模块内部细节。

首先看一下 Query Correction 模块,也即查询纠错模块。

对于英文,最基本的语义元素是单词,因此拼写错误主要分为两种:一种是 Non-word Error,指单词本身就是拼错的,比如将“happy”拼成“hbppy”,“hbppy”本身不是一个词。另外一种是 Real-word Error,指单词虽拼写正确但是结合上下文语境确是错误的,比如“two eyes”写成“too eyes”,“too”在这里是明显错误的拼写。

而对于中文,最小的语义单元是字,往往不会出现错字的情况,因为现在每个汉字几乎都是通过输入法输入设备,不像手写汉字也许会出错。虽然汉字可以单字成词,但是两个或以上的汉字组合成的词却是更常见的语义元素,这种组合带来了类似英文的 Non-word Error,比如“大数据”写成“大树据”,虽然每个字是对的,但是整体却不是一个词,也就是所谓的别字。

query 纠错的具体方案有:

  1. 基于编辑距离
  2. 基于噪声信道模型

1. 编辑距离的方法

编辑距离包括删除(del)、增加(ins)、替换(sub)和颠倒(trans)四种转移操作,对应四种转移矩阵。这些转移矩阵的概率可以通过对语料库统计大量的正确词和错误词对来得到。

中文词语的编辑距离转换存在较大的转义风险。比如,雷锋 ->雷峰塔。中文纠错通常以拼音为基础,编辑距离等其他方式为辅的策略。

2. 基于噪声信道模型的纠错方法

噪声信道模型(Noisy Channel Model)最早是香农为了模型化信道的通信问题,在信息熵概念上提出的模型,目标是优化噪声信道中信号传输的吞吐量和准确率。对于自然语言处理而言,噪声信道模型如下图,其中 I 表示输入,O 表示经过噪声信道后的输出,I’表示经过解码后最有可能的输入。

自然语言处理中的机器翻译,词性标注,语音识别等多个问题都可以使用信道噪声模型来解决,对于纠错问题也可以使用信道噪声模型来解决,相应的求解问题可以用公式表达:

其中 p(x|w) 是正确的词编辑成为错误词 x 的转移概率,p(w) 是正确词的概率,p(x) 是错误词的概率。

噪声信道模型和 Non-word 纠错类似,只是计算目标从某个候选词的最大概率变成不同位置候选词组合形成的句子 p(s) 的最大概率,这个问题可以使用 HMM(Hidden Markov model,隐马尔可夫模型)求解。

除了上述 2 种方法,真实的场景中,还会结合搜索日志的 session 分析和点击模型来进行纠错结果的排序调整。这里不再展开。

现在我们再看看 Query Suggest 模块,Query Suggest,也即输入下拉提示,根据用户输入的查询词前缀自动提示用户最有可能输入的完整查询词列表。

这里涉及几个问题

  1. Suggest 词条来从哪里来
  2. 如何根据当前的输入快速匹配到候选 suggest 词条列表
  3. 如何对候选 suggest 词条列表进行排序

suggest 词条通常主要来自用户搜索历史 query log,但存在数据冷启动的问题,开始时缺少 query log 时如何处理?对于一些垂直的应用场景,比如小说搜索中,suggest 词条也可以是作品的标题、标签、作家名等,电商搜索中可以是品牌词库、产品列表等。

对于 suggest 词条列表的存储结构与快速匹配,如果 suggest 词条列表不是很大,Trie 树(又称字典树)是一个不错的选择,用 Trie 树实现的主要优点是利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的,实现也比较简单,但缺点是节点数增加到一定程度内存开销会成为瓶颈。如果 suggest 词条列表很大,可以选择 Ternary Tree(又称三叉搜索树), 三叉搜索树对 Trie 的内存问题(空的指针数组)进行了专门优化,具体细节大家可以 google,这里不再深入。

Suggest 候选词的排序通常根据候选词项的整体热门指数,即搜索的多的排在前面。当然实际应用场景中的排序会考虑更多的排序因素,比如个性化的因素,当下热门指数等因素。

Query Expansion 查询扩展模块

查询词扩展技术通过将与用户查询词相近、相关的词扩展到用户查询词中的方法, 更准确地描述用户的信息需求, 去除用户查询词的多义性, 从而更精确地查询用户所需信息。在信息检索技术中, 查询词扩展是一种能够有效提高查询效率的技术。通过用户搜索日志和点击日志可以挖掘出查询扩展词。

我们在实践中采用一种基于搜索日志会话局部上下文和全局上下文为语料库使用 word2vec 构建 skip-gram 词向量模型,根据词向量模型可以取得与查询词最相似的前 N 个词构成初步的相关候选词表,然后再利用 K 近邻算法从相关词候选词表选取出语义最相关的候选词作为查询词的扩展词。

搜索日志会话局部上下文是指与当前 query 在同一个会话上下文中的共现 query, 也是用户对 query 的查询重构,比如初始 query 为“变形金刚”,用户在查询会话中可能将 query 变换为 “变形金刚电影”进行搜索,则“变形金刚电影”为原始 query 的局部上下文。

query 的全局上下文挖掘思路:

根据查询词和查询所点击的结果构建二部图,利用随机游走模型计算出每个查询词的文档分布作为查询词的查询向量,再利用 KL 距离来计算两查询向量之间的相似性。

Query Classification 查询意图分类模块

通常有基于规则模板的分类方法和基于机器学习的分类方法。

一种是基于规则模板的分类方法,这种方法比较适用于查询非常符合规则的类别,通过规则解析的方式来获取查询的意图。比如:今天天气怎么样, 可以转化为 [日期][实体: 天气][询问词: 怎么样]上海到曼谷的机票价格, 可以转化为 [地点] 到 [地点][机票 / 车票 / 火车票] 价格

这种方法的对比较明确的规则性强的方式有精确的识别度,缺点是覆盖度低,用户查询稍作变换可能就不 match 了,另外规则的发现和制定主要靠人工进行。

另一种是基于机器学习分类的方法。

如果有确定的查询类别体系,基于机器学习的查询意图分类是一个不错的选择,可以选择 SVM 作为分类器,关键在分类特征的选择, 还有训练样本的准确标注。

这个和我们之前参加过的 2014 ACM CIKM 竞赛的问题类似,那年 CIKM 竞赛的题目是自动识别用户的查询意图(Query Intent Detection,QID):给定一批标注过类别的搜索日志包括查询日志和点击日志作为训练样本,其中也有部分未标注的,类别为 unknown。

在特征的选择方面,除了基本的 Query 的长度、Query 的频次、Title 的长度、Title 的频次、BM-25、Query 的首字、尾字等,我们通过对 log session 上下文的分析,进行了 Query 间特征词汇的挖掘,运用了 query 在相同 session 中的共现关系,挖掘 query 之间的子串包含关系,query 和点击的 title 之间的文本特征关系等。

在分类模型的选择方面,我们选择了 Ensemble 框架。Ensemble 的基本思想是充分运用不同分类算法各种的优势,取长补短,组合形成一个强大的分类框架。不过 Ensemble 不是简单的把多个分类器合并起来结果,或者简单将分类结果按固定参数线性叠加 (例如不是 a1 * ALGO1 + a2 * ALGO2 + a3 * ALGO3),而是通过训练 Ensemble 模型,来实现最优的组合。

在 Ensemble 框架下,我们分类器分为两个 Level: L1 层和 L2 层。L1 层是基础分类器,L2 层基于 L1 层,将 L1 层的分类结果形成特征向量,再组合一些其他的特征后,形成 L2 层分类器(如 SVM)的输入。这里需要特别留意的是用于 L2 层的训练的样本必须没有在训练 L1 层时使用过。

Semantic Tagging 模块

这个模块主要是对 query 中的命名实体进行识别,比如对电商搜索 query 中的品牌词、产品词、属性词、地址进行识别。对 query,用一个相对准确的词典 (品牌词 / 产品词 / 属性词 / 地址词) 去标注语料。

比如对于 ”新西兰安佳奶粉二段“ 标注语料如下所示:新 B-loc 西 I-loc 兰 I-loc 安 B-brand 佳 I-brand 奶 B-product 粉 I-product 二 B-attr 段 I-attr实体词识别模型可以通过 crf 来进行训练。

至此,第二部分 如何识别用户搜索意图 也讲完了总结一下,我们首先简单说明了用户搜索意图的主要分类:导航类、信息类、资源类,然后对搜索意图识别的主要功能模块查询纠错、查询词自动提示、查询扩展,查询自动分类、语义标签等实现思路分别进行了介绍。

三、达观搜索意图识别引擎

达观通过 RESTAPI 接口的方式向客户提供基于公有云和私有云的搜索服务。其中语义分析模块包含了对用户 query 意图的离线挖掘和在线预测。

达观 query 意图识别引擎内部组合了多粒度分词、多歧义分词、命名实体识别、词汇间紧密度分析、词汇重要性分析、同义近义词分析、拼写纠错、拼音转写、高频词动态省略分析、需求词识别、相关搜索词、直达搜索词分析等多个功能模块。

引擎底层基于达观统一的文本语义挖掘算法平台:

达观文本语义挖掘算法平台是一个融合了多种算法的集成学习平台,既包括经典的 SVM、LR、RF、LDA 等算法,也包括 CNN、RNN、LSTM、BILSTM 等深度学习算法。比如在实践中,我们尝试将线性统计模型 CRF 和神经网络结构 LSTM 相融合的方法,在 LSTM 的输出端将 softmax 与 CRF 结合起来,使用 LSTM 解决提取序列的特征问题,使用 CRF 有效利用了句子级别的标记信息,取得了不错的效果。

重庆永川深山搜索特大制毒案嫌疑人画面曝光

毒品是人类社会的公害,不仅严重侵害人的身体健康、销蚀人的意志、破坏家庭幸福,而且严重消耗社会财富、毒化社会风气、污染社会环境,极易诱发一系列犯罪活动。

绝毒品,功在当代、利在千秋。禁毒工作事关国家安危、民族兴衰、人民福祉。

今年3月,重庆警方打掉一个藏匿于永川区红炉镇深山特大制毒团伙,一举抓获制毒犯罪嫌疑人胡某某等17名涉案嫌疑人,缴获毒品1.2吨。此案系重庆市打掉制毒工厂规模最大、缴获毒品数量最多的案件。这是一场真正的禁毒人民战争,该案的成功侦破,离不开专案民警的舍生忘死和戮力攻坚,更离不开当地干部群众的广泛支持和积极参与,他们是这场“战役”背后的“无名英雄”。

民轮流蹲点值守

在行动前,考虑到该制毒窝点三面环山、地险林密、人迹罕至,隐蔽性极高,一旦开始行动,嫌疑人必定亡命逃窜,警方向当地党委政府通报了相关情况,希望得到当地干部群众的支持。接到警方通报后,红炉镇党委政府立即召集镇、村干部召开紧急会议布置协助抓捕行动,并疏散附近群众。

在警方对该制毒窝点进行收网的第一时间,该镇迅速组织镇、村、社干部和群众100多人24小时轮班蹲点值守,对制毒窝点周边进出山林的道路设卡封锁,全力配合警方对逃跑的犯罪嫌疑人进行搜捕。

部群众穿越深山搜寻

在外围设置卡点,对企图穿越包围圈的犯罪嫌疑人进行拦截抓捕的同时,当地还组织村(社区)及卫生院干部群众,对制毒窝点附近的新店场镇、老红炉场镇以及各村卫生室,重点排查操外地口音、衣着脏乱、有受伤等情况的可疑陌生人。

在公安民警的指导下,该镇组建由镇村干部、民兵、林场职工和村民等近百人的搜山队伍,配合区公安局民警连续三天不分昼夜地开展拉网式搜查。

干部群众踏着泥泞的道路,在深山老林里穿越荆棘,对试图逃窜隐藏的制毒分子展开全方位的搜捕。

搜捕中,当地干部群众还通过广播、微信、短信等方式充分发动群众,利用村民“地熟人熟”优势,积极提供情报线索。

在莽莽的阴山山脉,一幕幕警民联手齐心抓毒贩的场景正在上演。

截擒获制毒分子

群众的力量被充分调动起来,纵然群山连绵,沟壑纵横,制毒分子也无处藏身。

3月9日至11日,通过设卡、搜山等,公安民警抓获犯罪嫌疑人5人;群众线索举报抓获犯罪嫌疑人3名,3月9日中午,红炉镇会龙桥村村民彭某发现一男子一身泥泞、神情慌张,不像本地人,便拨打110报警,民警火速赶往附近将该男子擒获;9日下午2时许,红庆村村民郭某家中来了一名操着广东口音的可疑男子,巧妙与其周旋,果断报警将其抓获;3月11日下午6时许,镇机关干部张某和社区干部在制毒窝点附近发现一名逃亡犯罪嫌疑人并将其抓获。至此,9名从现场逃亡的制毒嫌疑人悉数被抓捕归案。

警力有限,民力无穷。禁毒工作不是一个部门的职责,它需要全社会共同参与,只有广泛动员各界群众和社会力量,深入开展禁毒人民斗争,综合施策治理毒品问题,才能有效遏制毒品问题快速蔓延势头,为全社会营造良好的社会治安环境。

来源: 永川公安

打造永川新名片 展现永川新风貌

爆料、求助、发布信息>个人微信号:cun39330