东欧第一搜索门户客户体验中心落户锡山

科技日报讯 (通讯员许加彬 记者过国忠)俄语区重要搜索门户——Yandex国内首家客户体验中心,日前落户无锡锡东新城商务区。这是该商务区跨境电商产业引进的一个重量级服务平台。

Yandex为纳斯达克上市企业,是东欧第一搜索门户,也是俄罗斯最重要的网络服务门户,其搜索引擎占有约60%俄罗斯市场份额,访问客户主要来自俄罗斯、白俄罗斯、乌克兰、吉尔吉斯、塔吉克斯坦等欧亚国家,对于企业在俄语区开展跨境贸易有着极其重要的导向性作用。通过Yandex,可以让“一带一路”国家战略中的“一带”核心国家和地区(俄罗斯、东欧、中亚)的近2亿俄语人口充分了解到中国商品与中国制造。这些国家和地区与中国贸易总额高达1600多亿美元,并占据着中国对“一带一路”沿线国家出口总额的10%以上。Yandex的落户,将为商务区重点打造的跨境电商产业再添码,为进出口企业在俄语区开展跨境电商业务提供重要平台。据透露,Yandex下阶段将与其战略合作伙伴——已落户商务区的企业上海星谷信息科技一起,通过其客户体验中心的服务和产品的现场体验,积极引导无锡、江苏乃至中国制造业企业利用Yandex这个大平台获取俄语区有关进出口方面包括大数据分析等一系列增值服务,帮助企业更好地走出去。

解构电商 O2O 探秘搜索系统的 简历

搜索系统的“基本介绍”

搜索系统,顾名思义提供大数据查找筛选的系统功能。在电商和O2O领域作为一个主要的流量入口起到了至关重要的作用。

“基本介绍”:指标

对于搜索来说,主要的指标为准确率和召回率。我们以下图为例解释下什么叫做准确率和召回率。

图中整体的部分为所有商品数据的全集,其中包括不相关和相关的内容。

  • 准确率:搜索结果中相关内容的比例,即图中A的部分

  • 召回率:搜索结果占整体内容的比例,即A+B

由此我们可以看出,最完美的结果是A足够大且B足够小,但实际实现中会发现两个指标是相反的(召回率越高准确率会越低)。需要通过规则来平衡这块部分。

“基本介绍”:基础结构

搜索系统主要的组成部分有几块:

  • 切词逻辑

  • 词库

  • 基础信息

  • 加权规则

  • 排序展示逻辑

整体流程如下

名词解释:

  • query:是查询的意思,这里指用户在搜索框输入的内容。

  • 切词:又叫分词,是根据词库/词典将一段文本进行切分以便机器识别的过程。

  • 词库:指用于切词的词库。

  • 加权:将检索结果集按照一定的维度、规则进行打分就叫做加权。

  • 索引:商品信息存储时需要建立索引,索引作为每个商品的标识方便在大数据量的情况下快速查找筛选。

“基本介绍”:应用场景

搜索的应用一般有两种:全文检索和suggest。其中suggest的规则比全文检索要简单一些。服务上由于suggest一般支持模糊查询的情况,所以要考虑服务上是否要独立还是公用一套。

搜索系统的“工作履历”:流程解构切词/词库

切词,又叫分词。用于将用户输入的无结构化字符变成机器可识别的词组。市面上有很多成熟的切词组件。切词逻辑有很多种,根据字符、概率等,电商和O2O一般使用字符串切词的方式处理。关于切词的方法最基础的有最大正相匹配、最大逆向匹配、双向匹配等,具体的内容可以百度查询。切词工具根据词库中的词典进行切分,一般开源的切词工具都有默认的词库和自定义词库两种情况。用户可通过添加自定义词库来完善补充。

这里面需要强调的是切词时候的过滤,尤其生鲜类非标品情况下特别需要注意。

  • 单字词、助词之类的是否要过滤掉。如米、面、油等

  • 别名情况的处理,尤其是生鲜类。比如在北京叫油菜,在上海叫上海青,在重庆叫漂儿白

检索结果集

根据切出的词语进行匹配,匹配到的商品信息集合为检索结果集。结果集需要做检索、过滤、标记三个步骤。

检索

检索项包括但不限于:

  • 商品名称

  • 商品标题、副标题

  • 商品描述

  • 商品参数、规格

  • 商品品牌(生鲜副食品类尤为重要,比如五得利面粉、鹏程五花肉)

  • 商品品类(一级类、二级类)

  • 别名关联商品

  • 促销类型

成熟的电商系统不仅仅实现用户的基本商品检索,还会根据query进行意图分析来进行query转换。以生鲜电商举例,当用户搜索“猪肉”时,用户希望获得的不是含有猪肉词语的商品,而是猪肉的各个部位、猪肉级别等。这时应该转化为后臀尖、前臀尖、里脊,一级白条等词语进行检索,而不是匹配猪肉。意图分析主要有两个方面

  • 行为模式分析

  • 用户画像分类

过滤

获取的结果集需要经过去重、过滤的处理。此部分行为可以在加权打分后进行处理,也可以安排在初选结果后处理。

  • 同一个商品被多个词语命中需要去重

  • 现实中的电商搜索可能会根据不同的场景构建所谓的“小搜索”,如按照类目、按照品类、按照定制化场景等。所以针对不同的搜索场景可能会有单独的过滤去重条件,也可以在构建数据的时候使用不同的库进行处理。

  • O2O场景需要按照一定区域概念(城市、商圈等)进行过滤

  • 售罄商品需要过滤

  • 下线商品需要过滤

标记

在检索完成后需要对数据进行标记,以便后续做加权时使用。此步也可以在做加权处理的时候同步进行。

加权

加权的目的是为了根据模型确定结果集各个商品的排序优先级。加权的维度有很多,根据不同的场景考虑也会有所区别。

加权因子主要分为几个维度:

  • 相关度

  • 商业化因素

  • 个性化因素

  • 人为因素

  • 数据模型统计

相关度

这里指的是分词的相关度。包括文本匹配、词间距、是否是中心词、品牌词等。中心词的概念是是否命中了核心的词语,中心词和品牌词也需要有对应的词库进行维护更新。词间距是计算相关性的一个维度,比如一段文本中包含清华、大学,“清华大学xxxxxxx”和“清华xxxxxxx大学”相比肯定是前者相关性更高一些。

这里面有几点需要注意:

  1. query被完整匹配和部分匹配的权重是不同的

  2. 单词命中和多词命中同一商品也需要考虑权重情况

商业化因素

考虑业务场景下需要关注的因素称之为商业化因素。

  • 商品库存

  • 是否新品(考虑新品的特殊性,也可以将此权重独立打分)

  • 商品销量

  • 是否促销商品

  • 销售额

  • 商品分类

  • 商品品牌

  • CTR(广告类的商品要考量)

  • 所属平台(POP、自营)

  • 区域(020属性)

  • 终端情况(手机、PC)

个性化因素

按照个人使用的情况进行个性化排序,做到所谓的“千人千面”。包括下单数据分析等。这部分同意图分析的情况类似。

人为因素

在日常运营过程中,有很多需要做强制人为干预的事情(如人工置顶)。所以在加权的时候需要考虑此类行为。

数据模型统计

可以根据用户的一些行为数据或者埋点数据分析,提供综合排名靠前的商品或者分类做单独加权权重。包括:

  • 用户点击

  • 用户收藏

  • 购买数

排序处理

根据加权的情况和一些特殊的处理,需要对最终输出的结果做排序调整。

这里提供两种方法供大家参考

  1. 可以按照加权打分的分值之和做排序。这样做比较直接,但在后续调整的过程中验证规则时容易混淆不清晰。

  2. 将不同的权重维度单独计算,生成一个长位数的标识符,每个权重在标识符上有自己的位置。按照优先级的顺序从左到右依次排列。考虑到机器计算的易用性上,可以在加权时使用十进制,然后统计时转换成二进制即可。类似下图这样,位数和排序可以根据具体业务场景制定。

最后要说下,在算法中要考虑相同因子下的打散,比如同一个商家店铺下的商品排序需要按照一定比例分布在不同地方,避免一次性展示过多同类商品。

如果系统能力富足,也可以增加单独的反作弊模块来处理一些恶意刷单刷榜的情况。

搜索与“大家”的关联

搜索系统主要为用户端提供搜索结果的输出,输入方面来自于相关的下游系统。

当搜索场景进一步细分时,要考虑更多数据的对接和分类。

在设计时有几个需要注意的地方:

  1. 搜索数据比较庞大,直接使用API调用实时数据对于系统压力过大,一般可采取搜索自建索引库,定时(比如15分钟)从相关系统拉取数据的方式。

  2. 基于不同的场景可以提供单独的索引库来实现,避免逻辑耦合不好分离做个性化。

  3. 用户端在调用suggest时考虑到服务压力,建议延迟几秒请求数据。

  4. 分词词库的维护也依赖于定期从相关系统中获取补充。

结语

搜索系统的核心是算法,从产品层面来说更多是关注业务逻辑规则以及上下游的依赖情况。本文对搜索的一些通用情况做了简单介绍,更深入的内容还需要大家在日常过程中进一步的深挖。

互 联 网 用 户 体 验 专 家

adinnet_design

回复关键词查阅更多:

用户体验 UE UX UI 设计 视觉 配色 排版

移动端 web app 响应式 交互 动效 GIF

创意 网页 产品 H5 艾艺 原创

微信小程序更新关键词搜索功能

距离6月1日,微信公众平台宣布:公众号群发文章新增通过文字或图片链接打开小程序的功能,不过两天而已!

在6月3日的凌晨,微信公众平台又宣布为小程序新增推广渠道:支持开发者添加与业务相关的自定义关键词。可见,腾讯对微信小程序的支持可谓是不遗余力!

这是小程序上线以来,几乎所有开发者期待的重磅开放!腾讯方面也表示,为方便用户找到所需小程序,并帮助小程序更准确地触达用户,故特意为小程序的开发者提供了自定义关键词的功能。

开发者使用自定义关键词搜索功能,需要注意两点:

1.此功能在6月9日正式生效;

2.小程序添加的“关键词”需通过审核。

小程序怎样添加关键词?

1.登录进入小程序后台,点击左边『推广』

2.选择『添加关键词』,输入提交审核

小程序可配置最多10个与业务相关的关键词,提交关键词需要等待 7 个工作日的审核,关键词每30天可以修改3次。

小程序关键词上“热搜”的影响因素

腾讯在本次更新中提到:关键词在配置生效后,会和小程序的服务质量、用户使用情况、关键词相关性等因素,共同影响搜索结果。下面,微容与大家一起探讨一下,这三个因素究竟如何影响关键词搜索结果。

先看关键词相关性,这就要回归到关键词的设置了,如何巧妙把关键词设置成广大用户的热搜词,又与你的小程序业务相关性高,显然非常重要,而不是随便用上热搜词。微容建议大家设置关键词一定从行业的定位、目标用户的特征出发,毕竟只有10个名额,而小程序的红利巅峰期非常短,抓住先机离成功更近一步!

再看用户的使用情况,这就是你家的小程序受欢迎程度与实用性决定的,如果用户对你家的小程序使用率越高,与同类性质的小程序比,上热搜的可能越大。就像粉丝基数量越大的公众号,同样的关键词被搜到的可能性就越大。

最后看小程序的服务质量这一点,就比较难界定了!这是否取决于你家小程序自身功能完善度?例如电商行业,目前常见的小程序只拥有“购物车”“支付”等基础功能,而如微容目前即将上线的电商行业解决方案则还拥有诸如“优惠券”“数据同步”等多样化的功能,那么在功能体验这块,显而易见,后者拥有着明显优势。当然,小程序的服务质量不仅仅取决于功能样式,如加载速度、页面布局、交互设置等都在影响用户的体验,因此,开发者需要从多个角度去加强小程序的服务质量!

小程序关键词如何优化?

开发者可在小程序后台的 『推广』 模块中,查看通过自定义关键词带来的访问次数。这个功能有助于开发者分析设置关键词带来的效果进一步优化关键词,也有利于对比小程序各个入口的流量如何。

毫无疑问,微信公众平台开放关键词搜索功能,对小程序开发者而言是振奋人心的,可预见关键词的红利正在来袭。

微容与你一起拭目以待,6月9日关键词搜索正式生效后,带来的惊人效应!

Pornhub公布站内成人VR搜索数据 中国排第一

近日,全球网站访问量排名第50名的成人内容供应商Pornhub发布了相关网站数据,宣布公司在2016年四月之后引入成人VR影片后开始获利。

Pornhub声称,2016年在他们网站上关于VR成人电影的搜索量超过3800万次,公司影库储存了1800部的成人VR视频。

有趣的是,相较于美国市场,成人VR内容在其他地区市场更受欢迎。以下是在Pornhub上“VR色情”搜索最多的前十个国家或地区:

1. 中国

2. 泰国

3. 香港

4. 菲律宾

5. 挪威

6. 芬兰

7. 巴西

8. 越南

9. 埃及

10. 智利

目前,Pornhub上提供的成人VR内容主要是针对Cardboard设备的成人VR视频,虽然Cardboard不能提供最好的VR观影效果,但是胜在成本低廉,上手简单,可以轻松让普通大众人手一个。Pornhob此前在做促销时送出一万多副VR眼镜。

对于成人VR影片来说,WebVR技术可谓是相当大程度提升了成人VR影片的观看效果,特别是在移动设备上。传统的移动设备浏览器不支持在线转换数据,所以在线成人VR影片没法转化为能在头戴里使用的VR。所以如果WebVR形成行业标准,那么在互联网上观赏成人VR影片将更为方便。

不过,Pornhub只是全球VR成人娱乐产业的冰山一角,从实用性来说成人VR影片其实算是有风险的赌注(因为产业前景不明),而且很可能被VR行业巨头打败,比如“谷歌”或者“Facebook”。

2016年算是VR产业发展的初期阶段,在2017年,VR产业将会迎来更大的发展,这其中当然也包括成人VR。

然如果你在玩VR,又想找的话

那么可以来VR眼镜吧:

淘宝用强化学习优化商品搜索后 总收入能提高2% | 论文

林鳞 编译自 arXiv

眼看618在即,淘宝又公布了新研究成果。

近日,南京大学和淘宝联合发表的论文Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning中,详细介绍了淘宝用强化学习优化商品搜索的新技术。

这个新构建的“虚拟淘宝”模拟器,可以让算法从买家的历史行为中学习,规划最佳商品搜索显示策略,能在真实环境中让淘宝的收入提高2%,是一笔不小的数额。

一起看看这个研究究竟讲了什么——

?

?

“四位一体”的虚拟淘宝

强化学习(Reinforcement Learning,RL)是匹黑马,可能会对淘宝用户体验产生变革性影响,但在物理世界中的RL应用却少有人研究。

这是有原因的。一般来说,目前的RL算法通常需要与环境进行大量交互,成本高昂。

在这个项目中,淘宝研究人员通过买家的历史购买记录,生成了“虚拟淘宝(Virtual Taobao)”;平台,虚拟的买家可进入淘宝触发平台搜索引擎

?

?虚拟淘宝架构

在这里,研究人员提出的GAN-SD(GAN-for-Simulating-Distribution)算法模仿虚拟买家的操作和搜索请求。

虚拟用户有了,但还还没有和环境产生交互。为了让虚拟平台产生交互变成动态环境,研究人员还提出了MAIL方法(Multi-agent Adversarial Imitation Learning),也可以称之为智能体对抗模仿学习法。MAIL同时学习买家规则和平台的规则,训练买家和平台产生更加真实的交互。

不过虚拟的终究是假的,当研究人员发现算法过度拟合虚拟淘宝时,意味着可能在实际情况下表现不佳。对此,研究人员提出了动作规范约束ANC策略(Action Norm Constraint),可以减少这种过拟合。

这样,“四位一体”的虚拟淘宝就建成了。

实验结果

思路和模型搭建完毕后,是时候表演真正的技术了。研究人员用下面三个指标衡量实验结果。

  • 总营业额(TT):所售商品的价值。
  • 总成交量(TV):所售商品的数量。
  • 页面采购率(R2P):采购发生时PV(显示页面视图)数量比率。

实验结果显示,通过数亿用户记录构建的虚拟淘宝重建了非常接近真实物理世界的环境。

?

?淘宝和虚拟淘宝间的用户分布情况

?

?淘宝和虚拟淘宝之间的R2P分布情况

研究人员,将一天的历史数据按时间顺序分为12个部分,以模拟R2P随时间变化的过程,结果如下:

?

?R2P随时间推移的走势

研究人员用了观察了虚拟淘宝的泛化能力,并且观察用行为克隆法(BC)替代MAIL之后R2P走势。实验证明BC环境中的R2P下降更快。

?

?虚拟淘宝的泛化能力

最后,研究人员将虚拟淘宝(RL + VTaobao)中的RL方法产生的策略与历史数据(SL + Data)上的监督式学习方法进行比较,结果如下:

?

?

可以看出,该RL+ VTaobao总是优于SL+Data法。

作者团队

这一研究的作者有五人,包括南京大学软件新技术国家重点实验室的Jing Cheng Shi,Yang Yu,Shi Yong Chen,也有阿里集团的Qing Da和曾安祥(花名仁重)。

?

?

阿里巴巴搜索事业部曾安祥

阿里集团和南京大学的合作不只淘宝这个案例。不久前,实验室与蚂蚁金服合著的研究Distributed Deep Forest and its Application to Automatic Detection of Cash-out Fraud论文也已发表。对了,这个实验室的常务副主任是周志华。

相关资料

Virtual-Taobao论文地址:

https://arxiv.org/abs/1805.10000

蚂蚁金服×南京大学论文地址:

https://arxiv.org/abs/1805.04234

中国葡萄酒市场搜索数据报告

随着技术革新,消费习惯变化和消费升级,企业势必将消费者的消费体验和引导作为最重要的因素。围绕消费新场景酒咔嚓运用图像识别技术与信息紧密连接消费者、酒款、商家,通过每个用户、每个酒款的真实互动数据,形成以“消费者数据”为核心来推动多消费场景、渠道融合。人工智能、大数据、云计算等技术逐步成熟并在消费中应用,让传统消费领域效率极大提升、成本极大降低、消费体验极大提高。 2018年,酒咔嚓大数据继续为葡萄酒行业探索数据价值共享背后的巨大商业潜能。

人工智能赋能产业:全方位感知用户行为习惯,智能选择海量葡萄酒品类让消费更加便捷;

海量大数据多元化:消费者需求的同一性减弱,结合互联网亿级流量,洞悉消费趋势;

酒类消费场景覆盖:线上线下有机结合,场景式销售为新零售与传统葡萄酒的结合提供前瞻性思路。

亿级流量来源

2017年,酒咔嚓大数据跨界对接互联网、电商与智能硬件巨头:百度、腾讯、搜狗、京东、天猫、淘宝、三星、海尔、西门子、htc……覆盖8亿消费者,每日亿级流量,致力于聚焦全球酒水行业的最新发展动态与趋势。

本报告中,数据均来自酒咔嚓及战略合作伙伴(百度、QQ浏览器、搜狗、三星手机、海尔、京东、酒仙网、品尚汇等)2017年1月1日至12月31日全年期间的葡萄酒搜索以及部分销售统计数据,对了解中国葡萄酒行业消费用户行为以及商业经营发展具有参考价值。

报告发布内容为酒咔嚓作为自有数据平台以及独家合作网络平台入口的独立数据调研和分析,不代表任何企业的立场。

风向前瞻

在多个跨界平台的数据流量支持下,酒咔嚓将逐步成为最受行业与消费者信赖的葡萄酒信息数据平台,以专业杰出的服务团队和精准翔实的数据分析打造葡萄酒产业数据生态链,深入新零售场景化购物模式,为行业提供最领先的数据支持和风向导航。

深度学习要多深 才能了解你的心 ——DNN在搜索场景中的应用

DNN在搜索场景中的应用潜力,也许会比你想象的更大。

1.背 景

搜索排序的特征在于大量的使用了LR,GBDT,SVM等模型及其变种。我们主要在特征工程,建模的场景,目标采样等方面做了很细致的工作。但这些模型的瓶颈也非常的明显,尽管现在阿里集团内部的PS版本LR可以支持到50亿特征规模,400亿的样本,但这对于我们来说,看起来依然是不太够的,现在上亿的item数据,如果直接使用id特征的话,和任意特征进行组合后,都会超出LR模型的极限规模,对于GBDT,SVM等模型的能力则更弱,而我们一直在思考怎么可以突破这种模型的限制,找到更好的特征;另外,及时LR模型能支持到上亿规模的特征,在实时预测阶段也是有极大的工程挑战,性能与内存会有非常大的瓶颈。

所以我们第一考虑到的是降维,在降维的基础上,进一步考虑特征的组合。所以DNN(深度神经网络)很自然进入了我们的考虑范围。再考虑的是如果把用户行为序列建模起来,我们希望是用户打开手淘后,先在有好货点了一个商品,再在猜你希望点了一个商品,最后进入搜索后会受到之前的行为的影响,当然有很多类似的方法可以间接实现这样的想法。但直接建模的话,LR这类的模型,很难有能力来支持这类特征,所以很容易就想到了RNN模型。

2.相 关 工 作

同时前人有很多工作给予了我们提示。Deep Learning over Multi-field Categorical Data这篇paper开始使用id类的特征进行CTR预估。

Google也推出Wide Deep Learning for Recommender Systems的WideDeep模型用于推荐场景。在FNN的基础上,又加上了人工的一些特征,让模型可以主动抓住经验中更有用的特征。

3. 我们的Deep Learning模型

在搜索中,使用了DNN进行了尝试了转化率预估模型。转化率预估是搜索应用场景的一个重要问题,转化率预估对应的输入特征包含各个不同域的特征,如用户域,宝贝域,query域等,各种特征的维度都能高达千万,甚至上亿级别,如何在模型中处理超高维度的特征,成为了一个亟待解决的问题,简单的线性模型在处理高维稀疏特征存在比较好的优势,但是单一的线性模型无法处理特征交叉的问题,比如,我们在转化率预估时并不能单独只考虑宝贝维度的转化率,而更需要考虑用户到宝贝的转化率或者query到宝贝的转化率,这种情况下,我们使用单一维度的线性模型就无法解决现有问题,而需要人工构造高阶的组合特征来完成,会消耗巨大的计算量。

大规模id特征实时深度神经网络模型,可以处理上亿维度的id类输入特征,并通过复杂神经网络结构对不同域的特征(用户,宝贝,query)进行特征组合,解决了单一线性模型无法处理特征交叉的问题,同时也避免了人工构造高阶组合特征的巨大计算量。

深度神经网络通过构造稀疏id特征的稠密向量表示,使得模型能有更好的泛化性,同时,为了让模型能更好的拟合大促期间商品特征数据的剧烈变化,在深度网络的最后一层增加商品id类特征,id组合特征和实时的统计量特征,使得整个网络同时兼顾泛化性和实时性的特点。

wide model

a. id feature: item_id, seller_id,学习已经出现过的商品,卖家在训练数据上的表现。

b. id cross feature: user_id x item_id , user_id x seller_id

连续值统计特征是非常有用的特征,Google的模型是把embedding向量和统计特征放到同一个DNN网络中学习,但实验发现这样会削弱统计特征的作用。我们为统计特征专门又组建了一个包含2个隐层的网路,并且为了增强非线性效果,激活函数从RELU改为TanH/Sigmiod。

Deep Model

a. 首先需要把离散特征(item_id,item_tag, user_id,user_tag,query_tag)embeding成连续特征。

b. 将embedding后的向量作为DNN的输入。考虑到最终线上预测性能的问题,目前我们的DNN网络还比较简单,只有1到2个隐层。

整体模型使用三层全连接层用于sparse+dense特征表征学习,再用两层全连接层用于点击/购买与否分类的统一深度学习模型解决方案:

第一层为编码层,包含商品编码,店家编码,类目编码,品牌编码,搜索词编码和用户编码。

在普适的CTR场景中,用户、商品、查询等若干个域的特征维度合计高达几十亿,假设在输入层后直接连接100个输出神经元的全连接层,那么这个模型的参数规模将达到千亿规模。直接接入全连接层将导致以下几个问题:1. 各个域都存在冷门的特征,这些冷门的特征将会被热门的特征淹没,基本不起作用,跟全连接层的连接边权值会趋向于0,冷门的商品只会更冷门。2. 模型的大小将会非常庞大,超过百G,在训练以及预测中都会出现很多工程上的问题。为了解决上述两个问题,本文引入了紫色编码层,具体分为以下两种编码方式:1. 随机编码 2. 挂靠编码,下面将对以上两种编码方式进行详细的描述。

随机编码

假设某一域的输入ID类特征的one-hot形式最大维度为N,其one-hot示意图则如下所示:

其中黑色为0,只有红色为1,该特征表达方式即为one-hot形式,在这种表达形式下有两个硬规则:1. 任何两个不同的特征都只有一个元素为1。 2. 没有交叉重叠的红色为1的元素。

倘若打破以上两个规则,让one-hot变成six-hot,并且让两两six-hot中最多允许有三个为1的元素是重叠的,那么对1w维的每个one-hot特征都可以找到一个随机的six-hot特征与其对应,并且可以将这six-hot的最高维设置为500,在这种情况下可以将1w维的one-hot特征压缩到500维,实现20倍的特征压缩,如果输入特征是N万维,则可以将其分成N段,并且在每一段里根据上述寻找到的随机码本进行特征压缩,最后N万维的one-hot特征可以采用以上six-hot形式将其压缩到N/20万维,并且保证两两特征最多只有三个为1的元素是重叠的,示意图如下所示:

通过以上任一一种的编码方式,都可以实现模型大小将近20倍的压缩,使得百亿规模的模型参数压缩到了几亿维规模,但几亿规模参数的模型前向将会达到秒级,对于几十亿样本的模型训练,以及CTR模型的前向来讲将会是一个灾难,接下来将描述如何采用红色稀疏全连接层进行模型前向以及后向的时间压缩。

挂靠编码

上述的随机编码对用户域非常适用,但对商品域而言,虽然冷门商品会一定概率跟热门商品重叠一些为1的元素共享一些连接边权值,缓解了冷门商品越冷门的问题。但这里并没有利用好相似商品的信息,如何利用相似商品的信息,将冷门的商品与非冷门的相似商品建立共享权值?假设非冷门商品采用one-hot编码,冷门商品采用M-hot编码,如果冷门商品能通过i2i找到对应的热门商品,则该冷门商品共享一维该热门商品的编码,另外M-1维编码采用随机编码;否则,直接对M维进行随机编码。假设非冷门商品A的one-hot编码最后一位为1,冷门商品B通过i2i找到相似非冷门商品A,冷门商品B采用six-hot编码,则其挂靠编码示意图如下:

分词编码

上述的两种编码很好的解决了用户域与商品域的编码问题,但对查询域还是不够。在对查询域做处理的时候,往常模型往往会对查询短语先进行ID化,然后通过近义词合并一些ID,再经过热门查询词统计来筛选出大概几百W的热门查询ID,然后就会输入到模型中。

在以上的流程中,无法处理有重叠词语的两个查询短语的关系,比如“红色连衣裙”,“红色鞋子”,这两个查询短语都有“红色”这个词语,但是在往常的处理中,这两者并没有任何关系,是独立的两个查询ID,如此一来可能会丢掉一些用户对某些词语偏好的pattern。

基于以上观察,可以对查询短语首先进行分词,然后对每个词语进行one-hot编码,最后针对每个查询短语进行合并词语编码,也就是每个查询短语元素为1的个数是不定长的,它元素1的个数是由自身能分成多少个词语来决定的。分词编码的示意图如下:

从第二层到第四层组成了“域间独立”的“行为编码网络”,其中第二层为针对稀疏编码特别优化过的全连接层( Sparse Inner Product Layer ),通过该层将压缩后的编码信息投影到16维的低维向量空间中,第三层和第四层均为普通全连接层,其输出维度分别为16和32。“行为编码网络”也可以被看做是针对域信息的二次编码,但是与第一层不同,这部分的最终输出是基于行为数据所训练出来的结果,具有行为上相似的商品或者用户的最终编码更相近的特性。

第五层为concat层,其作用是将不同域的信息拼接到一起。

第六层到第八层网络被称为“预测网络”,该部分由三层全连接组成,隐层输出分别为64,64和1。该部分的作用在于综合考虑不同域之间的信息后给出一个最终的排序分数。

最后,Softmax作为损失函数被用在训练过程中; 非线性响应函数被用在每一个全连接之后。

Online Update

双11当天数据分布会发生巨大变化,为了能更好的fit实时数据,我们将WDL的一部分参数做了在线实时训练。embeding层由于参数过多,并没有在线训练,其他模型参数都会在线学习更新。

deep端网络参数和wide端参数更新的策略有所不同,wide端是大规模稀疏特征,为了使训练结果有稀疏性,最好用FTRL来做更新。deep端都是稠密连续特征,使用的普通的SGD来做更新,学习率最好设置小一点。

和离线Batch training不同,Online learning会遇到一些特有的问题:

a. 实时streaming样本分布不均匀

现象:线上环境比较复杂,不同来源的日志qps和延迟都不同,造成不同时间段样本分布不一样,甚至在短时间段内样本分布异常。比如整体一天下来正负例1:9,如果某类日志延迟了,短时间可能全是负例,或者全是正例。 解决:Pairwise sampling。Pv日志到了后不立即产出负样本,而是等点击到了后找到关联的pv,然后把正负样本一起产出,这样的话就能保证正负样本总是1:9

b. 异步SGD更新造成模型不稳定

现象:权重学飘掉(非常大或者非常小),权重变化太大。解决:mini batch,一批样本梯度累加到一起,更新一次。

快读《百度移动搜索建站优化白皮书》

2017年11月,百度发布《百度移动搜索建站优化白皮书》(后续简称移动建站白皮书),移动建站白皮书,目的在于让广大站长充分了解百度搜索引擎规则,并根据规则合理安全建设网站、优化网站,从而更好的获取搜索流量,共建良性搜索生态,整理出此白皮书。

就在这两天大家忙着关注百度“惊雷算法”的同时,百度搜索资源平台又低调的放出了一份《百度移动搜索建站优化白皮书》。说是历时3个月呕心沥血编辑而成,最终化零为整得出这么一份关于移动搜索建站的指南,给予手把手的建站教学不说,也针对建站优化过程中可能面对的问题,提供了全面的解答。

百度移动建站白皮书快读

一、网站建设

1、域名选择

Tips:选择简单好记且安全的域名

要点:移动站的域名需与PC站域名分开,移动站不建议与PC站公用一个域名;比如PC网站域名建议是www.test.com,对应移动站的域名是m.test.com,而不是www.test.com/m/的形式。

2、内容发布系统

Tips:遵循有条理、逻辑清晰建站,注意网站搭建的安全问题

要点:网页结构清晰、各分类名称设置醒目;导航、面包屑导航设置合理;无三俗图文、音频元素。

3、网站结构

Tips:URL结构设置、目录结构设置

要点:重要内容不建议放在深层目录

4、服务商/自建服务器

Tips:服务器安全和稳定将直接影响百度搜索引擎对网站的整体判断

要点:域名服务、服务器、虚拟主机、独立主机、安全服务、网络服务

  • 中文网站不建议选择国外服务器

  • 建议虚拟主机选购时候需要特别注意,主机商是否存在限制搜索引擎访问的情况

  • 选购和托管独立主机,注意虚拟主机是否有将爬虫IP拉入黑名单

  • 希望更多网站加入到HTTPS的队伍中来,为网络安全贡献一份力量

白皮书中的详细内容对国内外服务的优劣势、虚拟主机的购买注意、独立主机的建议以及网站防止被黑等实际情,况均有大篇幅的解说,可以自行查看

二、网站优化

1、抓取友好性

Tips:顺畅稳定的抓取是网站获得搜索用户、搜索流量的重要前提

要点:URL规范、百度蜘蛛、网页抓取、返回码、死链、访问稳定性

URL规范:在搭建网站结构、制作URL时,尽量简单美即可,越简单越平常,越好;不建议URL中含有中文字符;谨慎使用#参数。

百度蜘蛛:只需两步,正确识别百度蜘蛛

①、查看UA

②、反查IP

访问速度:关于移动页面的访问速度,百度搜索资源平台已于2017年10月推出过算法针对页面首页的打开速度给予策略支持。页面访问提速建议详情,也可以在白皮书中查看。

2、页面解析

Tips:页面解析对网站至关重要,网站内容被抓取是网站被发现的第一步,解析效果直接影响搜索引擎对网站的评价。

要点:页面标题、主体内容、网页发布时间、canonical标签

页面标题:2017年9月推出清风算法,重点打击网站标题作弊。要避免:文不对题,大量堆砌关键词。

3、页面价值

要点:内容价值、外链建设、内链建设、anchor

内容价值:原创文章,没有歪曲、篡改他人创作或者抄袭、剽窃他人创作而产生的作品。

三、百度专属SEO工具

1、百度搜索资源平台(原百度站长平台)

2、查询工具

要点:索引量工具、流量与关键词工具、抓取频次工具、抓取诊断工具、抓取异常工具

3、提交工具

要点:链接提交工具、死链提交工具、移动适配工具、robots

移动适配工具:如果网站同时拥有PC站和移动站,且二者能够在内容上对应,即主体内容完全相同,网站可以通过移动适配工具进行对应关系,便于百度来识别PC和移动站之间的关系。

Robots:robots是站点与蜘蛛沟通的重要渠道

*具体使用方法,可以参考白皮书内容

4、搜索展现工具

Tips:站点logo百度搜索资源平台推出的免费类工具,可以给到网站品牌曝光、展示。

5、维护类工具

四、网站常见问题专题

1、网站换域名

Tips:包括从一个二级域更换到一个新的二级域,或者网站域名整体发生改变,都视为网站换域名。

2、网站流量异常

Tips:网站发生流量异常,建议网站先做好站点自查,或者流量异常反馈。

3、HTTP改造

Tips:从网站安全和用户体验上来讲,HTTPS站点更为安全优质,总体来讲,如果条件允许建议网站做HTTPS。

4、网站关闭服务

Tips:如网站短期内关闭服务器,如一天之内关闭服务器,可不用使用闭站保护工具;如网站需要长时间关闭网站,建议使用闭站保护工具

5、新站扶持

6、流量统计

Tips:百度统计是百度推出的一款免费的专业网站流量分析工具,能够告诉用户访客是如何找到并浏览用户的网站。

7、反馈沟通渠道

Tips:网站与2017年8月8日发生流量大幅异常,网站来自百度流量整体下降50%,(附流量与关键词工具的截图),自查网站并无问题,服务器稳定。

知识产权:商标注册、版权登记、专利申请

百度搜索 偏爱 自家人 为了用户体验还是赚钱

  一篇在朋友圈刷屏的质疑文章,让百度搜索业务再次陷入争议。文章核心是,百度搜索结果一半以上会指向百度自家产品,百度搜索已经成了自家的站内搜索。

实际上,两个月前,记者已经就相关事宜咨询了百度方面,询问为什么加重了百家号在百度搜索中的展示权重。当时,一位百度百家号相关负责人告诉记者,百度此举是为了用户体验更好更流畅。针对此次质疑,百度今天上午发布公开声明称,目前百度搜索结果中,百家号内容全站占比小于10%,“给用户简洁一致的搜索体验”。

从百度财报来看,百家号为代表的信息流业务已经成为搜索业务之外新的重要营收来源。今日头条已经证明了信息流广告是块大蛋糕,做大百家号显然是业绩增长的必然选择。为了用户体验,还是为了赚钱?这个问题再次让百度直面公众拷问。

针对百度最新回应,质疑文章的作者,前媒体人、传媒学者方可成对《每日经济新闻》记者表示,全站比例没有太多意义,大家搜索一般只看前两页。百度应该真正按照内容质量来排序,李彦宏创建百度的时候就是依靠的排序算法技术,这本应是他们的看家本领。

从信息平权到偏爱自家人?

图片来源:每日经济新闻记者 刘春山 摄

“之前就观察到了这个现象,我一直非常关心互联网上的信息质量问题,而搜索引擎是重要的信息入口,所以写这个文章也是我一直关注的话题领域。其实去年底就想写了,只是最近刚抽出时间。” 方可成对《每日经济新闻》记者说。

2017年初,百度发力信息流业务,开始建设百家号内容生态。也是在2017年,百度发布公告称,因对时效性内容识别技术升级,原独立新闻源数据库的形式已不再适合使用,故取消新闻源数据库。当时百度公告表示,取消新闻源之后,推出了VIP俱乐部,站点有机会优先展现在时效性检索结果中。

一直以来,各家新闻网站都以加入百度新闻源为荣,加入百度新闻源意味着在网络领域内具有公信力与权威性。同样还有百度权重指标,权重越高,越能展示在搜索前列,这样也促成了百度搜索质量的良性循环。

方可成在文章中提到,随着发展,百家号已经变得内容包罗万象,数量很大。很多来自百家号的低质量文章排列在搜索前面,找不到自己想要的结果,百度搜索结果方面的权威性、准确性在减弱。

记者注意到,互联网平台低质量内容一直是监管层打击的重点,严格监管自媒体账号将成常态。去年11月,国家网信办针对自媒体账号存在的一系列乱象问题,开展了集中清理整治专项行动,依法依规全网处置了9800多个自媒体账号。

方可成同时告诉记者,百度应该真正按照内容质量来排序,不给百家号额外的权重。其认为,李彦宏创建百度的时候就是依靠的排序算法技术,这本应是他们的看家本领。

“让所有的人,让全中国的人,不管你在多偏远的地方,你能够像北大的教授一样,方便、平等地获取信息,找到所求。”这是百度创始人李彦宏创立百度时的初心,其要倡导“信息平权”。

用户体验与盈利赚钱的平衡

百度将于今日下午举办内容创作者盛典,介绍最新内容生态策略 图片来源:每日经济新闻记者 刘春山 摄

《每日经济新闻》记者了解到,目前,百度搜索公司有两个市场部门,一个负责搜索业务,另一个负责百家号方面的业务。记者此前询问为何改变百度搜索展示规则,搜索结果很大一部分来自百家号时,两个部门都表示这应该是对方所需要回应的,出现了踢皮球现象。

提高百家号的展示比例,在外界部分人看来,百度是变得不那么开放了。此前一位百度方面的内部人士对记者解释,“大部分的媒体都入驻了,这样聚合用户体验会好”。

百度方面提供的数据显示,截至去年9月底,百度APP日活跃量达1.51亿,同比增长19%,信息流产品用户使用时长同比增长68%。而百度搜索的日响应次数超过60亿次,可见影响力之广,为重要的互联网入口工具。

互联网新经济观察家王冠雄对《每日经济新闻》记者表示,超级互联网平台具备两个属性:商业属性、类公益属性。这两个属性到了互联网企业之间出现过很多的纠纷,诸如电商二选一、微信屏蔽抖音,淘宝屏蔽百度等。类似事件已经多次发生,大互联网平台利用自己的绝对优势地位,做对自己有利的事情。

王冠雄告诉记者,流量入口是互联网企业的命脉,流量分配一直是核心问题,这问题不仅是对外,企业内部也一样。

从百度财报来看,信息流已经是搜索业务之外新的重要营收来源。搜索广告业务、信息流广告业务、AI成为百度核心业务的三驾马车。王冠雄表示,百度正在极力推百家号信息流业务,今日头条已经证明了信息流广告是块大蛋糕,做大百家号是百度目前大幅度增长业务的必要选择。

根据百度2018年三季报,从百度广告主数量和单广告主价值的增长可以看出,在搜索广告增速减缓的趋势下,信息流业务为百度带来了新的广告增长驱动力。搜索广告与信息流广告,相关促进,也在竞争。

百度针对质疑文章的回应

优化亚马逊搜索内容 这些关键词工具你应该用得上

亚马逊是最大的电商平台和产品搜索引擎,因此在该平台上优化产品内容很重要。但是,由于亚马逊没有和商家共享关键词数据,优化搜索结果就变得很困难了。

不像谷歌,谷歌至少还开放了AdWords关键词工具——Keyword Planner,亚马逊没有提供关键词工具来帮助卖家决定关键词,以便优化产品内容,并提高亚马逊上的产品页流量。

本文将列出一些能帮助卖家优化亚马逊搜索结果的关键词工具

谷歌Keyword Planner

价格:免费

卖家可以使用keyword planner来优化亚马逊搜索内容。但是显然,消费者在纯电商网站的搜索方式和全能型搜索引擎不同。

例如,消费者搜索“mushroom farm”可能是想购买一组工具,让他能在家里种蘑菇,又或者是想了解蘑菇种植信息等。

关键字数据不会显示消费者背后的搜索意图,也没办法知道消费者是想搜索相关信息,还是有意购买产品。因此我们不能确保美国平均每月1600的“mushroom farm”搜索,是否和工具套装购买有关。

在谷歌上,电商购物意图的检索和信息检索混杂在一起,但消费者在亚马逊上的搜索肯定是带有购物意图的。因此,使用谷歌Keyword Planner关键词数据,但却没有应用某种类型的Amazon相关过滤器,显示的搜索结果和产品数量,会和Amazon搜索结果有一定的偏差。

亚马逊Autosuggest(自动建议)

现在已经有一些新的关键词工具,帮助亚马逊卖家确定最有价值的关键词。所有的这些工具,都要用到亚马逊自动建议功能,收集消费者在亚马逊上搜索的关键词。如下图所示,Autosuggest能让消费者在输入关键词时,可以选择自动生成的建议词组,而不一定要输入全部的搜索关键词。

几乎每个Amazon关键字工具都会从autosuggest中获取关键词列表,然后将这些单词转变成数值展示不同的重要性。数值数据的来源,以及该工具如何轻松获取大量数据,是卖家选择正确关键词工具时,需要考虑的两个最重要因素。

以下是一些受欢迎的亚马逊关键词工具,以及它们的潜在用途、转变方法和搜索引擎优化方面的缺点:

1、SEO Chat Keyword Suggest Tool(SEO Chat 关键词建议工具)

价格:免费

此关键词建议工具由SEOChat开发,能够获取Google、Bing、YouTube以及亚马逊的关键词自动建议数据。卖家可以选择一次性获取四个网站的数据,以便比较人们在传统搜索、产品搜索和视频搜索中的差异,或者也可以只选择亚马逊,专注产品搜索。

使用SEO Chat关键词工具需要三个步骤:

(1)先输入关键词或关键词的一部分,该工具就会抓取亚马逊自动建议关键词,下图就是搜索“mushroom kit”第一步生成的结果。

该工具独特的一点是,它还会根据卖家每次输入完整一个词后,自动联想后续关键词的首字母,并显示相关的关键词。

例如,上方图片中,在SEO Chat工具输入“mushroom kit”后,它自动在末尾添加了字母“i”,这会促使亚马逊显示“mushroom kit indoor”词组,这是前10条关键词建议结果中没有的。

(2)选择了所有结果后,点击“Run Part 2: Bulk Suggest”按钮,该工具就会运行所有来自亚马逊搜索框的关键词建议,这时卖家就可以获得更具体的自动建议关键词组。第一步生成了13个结果,而第2步生产了6个结果,合起来总共19条关键词。

(3)最后,点击“Run Part 3: Useful Suggest”按钮能让卖家每个月通过SEMRush API获得100条谷歌Keyword Tool搜索数据。不过100条关键词组太有限了,因此卖家也可以跳过步骤三,自己导出数据再放到谷歌Keyword Tool上运行。

SEO Chat的关键词工具很清晰明了。虽然需要点击一两次按钮才能获得结果,但它可以导出数据,随时扩大或缩小数据,而且关键该工具还100%免费。

2、Keyword Tool Dominator

价格:免费试用版每天限制3个关键词,16美元就可以用终身订阅基本套餐,另外还有其他选项可供选择。

Keyword Tool Dominator提供独特的数据:基于亚马逊自动建议关键词表,排出1-10名的关键词。排名第1的最受欢迎的关键词建议词组,排在第10名就没那么受欢迎了。

但是,Keyword Tool Dominator生成的亚马逊自动建议关键词,不像SEO Chat那样全面。同样键入“mushroom kit”只会生成4条结果,但是相比之下,SEO Chat是19条。

但是,数据排名很有趣,卖家可以将Keyword Tool Dominator和SEO Chat以及谷歌 Keyword Tool的每月搜索数据结合起来。卖家至少需要付费16美元,才能获得每天3条以上的关键词。

3、Scientific Seller的Free Amazon Keyword Tool

价格:免费,可以升级

Scientific Seller的Free Amazon Keyword Tool关键词优化工具,通过销售升级的数据工具盈利,它比其他工具更深入。用了一个小时后,就找到了58条关键词,几乎是SEO Chat的三倍,而且在所有关键词中出现了SEO Chat没有找到的“edible mushroom kit”和“portabella mushroom kit”。

该工具能让用户去除一些类型的关键词,让关键词更加相关。

但是,该工具非常深入,甚至会让卖家觉得搜索结果无穷无尽。如果卖家花了一个小时才完成96%的“mushroom kit”关键词检索,那么完成所有的关键词检索需要多久?

此外,该工具没有看到导出按钮,可能当报表完成运行时会出现一个按钮,但是,不知道运行需要多长时间。卖家可以将词组一个个复制并黏贴到Excel表格中,但过程很繁琐,而且可能会出现格式出错的问题。

最后,没有数值与关键词相关联,它只是一个词组列表。同样,卖家还需要通过谷歌Keyword Planner运行这些词组,获得关键词的相关数值。但作为一种找出许多相关短语的方式,这个工具很好了。

4、MerchantWords

价格:每月30美元

MerchantWords是唯一一款能将搜索范围缩小到特定亚马逊品类的关键词工具,它能给出符合搜索的产品所在品类,如下图所示:

MerchantWords还能通过算法确定输入字词的关联关键词的每月搜索次数。不过有卖家表示对这一数据结果存疑。比如一个月内,有7.35万人在亚马逊搜索“mushroom kit”,却只有1300人在谷歌搜索同样的词,这一数据不太可信。

如果卖家想获得5条以上的搜索结果,那么就需要订阅完整版,每月支付30美元。

总结

这些工具的数据并非来自亚马逊的关键词数据。在亚马逊没有提供关键词数据的情况下,上述工具提供了一些洞察力,并帮助更多卖家将产品卖出去。