网民搜索行为全面解读

目标人群(消费者)的分析是营销策划中非常重要且必不可少的一个环节。目标人群分析是否透彻,会影响你对关键词选词方向的准确性。而选词方向准确与否,决定了你SEM流量的质量高低。搜索营销需要的是源源不断的高质量流量。

本文将例举目标人群(消费者)分析的5个方向。供大家参考。

1.分析产品/服务的目标人群是哪些网民。

例如B2C型企业,面对的是25岁-30岁的女性用户还是35岁-45岁的男性?B2B型企业,面对的是国企、事业单位还是普通的企业类单位。因为不同的消费群体网上的行为习惯是不一样的,购买能力也是不一样的,购买者和使用者都是不一样的…

2.分析目标人群搜索引擎使用习惯。

搜集资料或调查走访等形式,分析目标人群上网的时候,习惯在什么时间段(白天、晚上、工作日、节假日等时段)用哪些终端设备(PC、手机乃至android、IOS系统的手机、平板等)搜索哪些词来关注到我们的产品。

3.分析目标人群的网络行为属性标签。

目标人群在上网的时候,经常会关注哪些感兴趣的事物。例如旅游、美容护肤、汽车等。分析目标人群的网络行为属性有助于我们对提词方向的把控。对联盟广告的投放也有很高的指导意义。

4.分析目标人群常会访问的网站类型。

通过第3点的分析,大概能知晓访客喜欢上什么类型的网站,这时候我们可以在 wm123.baidu.com里面选择相应的网站。这些网站的名字,还可以作为关键词(人群词的一种)而提交到账户里面。

5.分析目标人群的消费点。

这点非常重要,目标人群会关注产品&服务的哪些特性,这往往是影响消费者下定单的关键点(称为消费点)。例如品牌知名度、价格高低、产品性能优良、厂家直销、行业权威、优质售后服务、本地化优势等等。目标群体的消费点往往就是我们推广的核心词。

在SEM中有两个很重要的环节:目标人群(消费者)分析和关键词选择。通过本文,你会发现其实这两个环节是有很大关联的。

更多SEM干货,请点击阅读:

我为什么不敢用百度搜索 排名靠前的全是

近日,一篇微信文章《我为什么不敢用百度搜索?》在朋友圈流传,有网友在手机上百度搜索“德邦物流”,排名第一的是所谓的“德邦物流”的“ 官网 ”,这位用户下单后才发现,发货的并不是“德邦物流”,而是另一家山寨物流公司。而实际上,这个山寨的“德邦物流”是百度的一条推广广告。

百度移动端搜索德邦物流遇“李鬼”

只收大件,起步价500元

这位网友在手机上百度搜索“德邦物流”,排名第一的是所谓的“德邦物流官网”,他拨打电话并下单,结果收到物流时才发现,发货的并不是“德邦”,而是一家山寨物流公司。

这位网友发现,这个山寨的“德邦物流”实际上是百度的一条推广广告,在界面下方确实有一行不起眼的小字“本地金牌商家”的广告标识。

但是推广广告的页面,无论名称、LOGO、还是400热线电话,甚至网站域名,都与正规的德邦物流极其相似,真假难辨。

换言之,百度移动端推广了一个“德邦物流”的“李鬼”链接。

这件事是真的吗?

手机端百度搜索“德邦物流”,

“李鬼”为何能排到“李逵”的前面?

根据网友的爆料,记者也体验了一把山寨“德邦快递”,结果如何?

真德邦客服录音:欢迎致电德邦,快递请按1,快运请按2。

假德邦客服录音:欢迎致电德邦物流服务有限公司,下单请按1,咨询请按2。

以上两条录音,一条来自德邦客服电话,一条来自疑似山寨的德邦客服电话。如果单从录音上判断,恐怕就连经常用德邦物流发快递的用户也难以分辨。

有用户反映,在手机端的百度搜索“德邦物流”,搜索结果的第一条会显示一个400-885-5353的客服热线,拨通之后,就是刚才的第二段客服录音。

然而,点开这条链接,尽管这家公司的网页设计与德邦物流的网站如出一辙,但网站的域名却露出马脚——这家公司是Deppnn.com,而德邦物流的网站域名则是Deppon.com。

通过“山寨德邦”的400热线电话下单,客服人员表示,他们只收超过30公斤以上的大件,最低起运费500元以上。

然而,德邦负责大件快运的工作人员称,德邦大件快运的起运费是60元,根本不存在500元的起运费。

记者发现,“山寨德邦”出示的快递单与德邦物流的有一点微小差别。而且上门取件的工作人员均没有穿着“德邦”的快递工作服。

原来,这家“李鬼”德邦公司,叫做“付德邦”。目前,在百度搜索的手机端已经撤下“付德邦”的广告。

百度回应:

违规推广系资质审核误判

对此百度回应称,山寨公司“付德邦”提交给百度审核的授权书系伪造,将对涉事山寨公司向公安及工商监管机关报案。

百度称:由于在推广资质审核和授权关系方面的误判,导致此次违规推广行为,并向此次事件的受损用户及德邦物流致歉。

这位“被坑”的网友还指出,搜索同一词条,在百度的移动端和电脑端,是被区别对待的。

在电脑上百度搜索“德邦”,排名靠前的就是德邦的官网,但是在手机端,却是长得跟“德邦”几乎一模一样的“付德邦”广告。

在百度移动端搜索了“肾虚”

排名靠前的全是广告

山寨物流公司,在百度手机端的搜索里,公然冒充正牌物流公司,在百度上花钱买排名这事儿并不是首次出现在公众视野当中。

2016年,魏则西事件让很多人意识到,自己平常信赖的搜索引擎居然是一个广告信息分发平台,而且是通过“竞价”这种粗暴的模式进行分配。

随后,国家网信办联合多部委入驻百度进行调查,要求切实整改,百度也宣布对医疗业务进行调整。

百度移动端与网站或有“双重标准”

近两年过去,用电脑浏览器登录百度等搜索引擎,会发现输入疾病名称,出现的都是“百科”、“经验”、“寻医问药”等公共信息,广告没有了踪影。

然而,事实并非如此。

记者调查发现,以往出现在搜索结果里的医疗广告信息,基本都转到了移动端类似百度这样的搜索引擎相同的关键词在网页端和移动端是完全不同的搜索结果。

4月9日,记者分别以“肾虚”、“胃炎”、“减肥”、“肌肉萎缩”为关键词在百度网页版上进行搜索,发现在首屏搜索结果中,一条广告都没有,只有一些网页信息和百科知识。

不过,在“百度”移动端是另外的搜索结果。

在百度移动端搜索“肾虚”,排名靠前的都是广告。

事实上,百度等搜索公司,主要收入仍来自于竞价排名广告。医疗广告从PC(电脑)端转到了移动(手机)端,这点从百度的财报也得到了证实。

今年2月百度公布的2017年第四季度及全年未经审计的财务报告显示,2017年第四季度,百度营收为236亿元,同比增长29%,其中移动营收占比76%。

移动端竞价投放早已是成熟产业

“竞价排名”,这种按效果付费的网络推广方式,其实早已是成熟产业,是把“搜索位置”进行竞价招商,对于某个关键词,竞价后再进行售卖。

在大数据的辅助下,移动端搜索更容易精准触达用户,下载“百度”客户端后,打开应用会提示“获取用户地理位置”。

这样当用户搜索某一种疾病名时,搜索结果直接是当地医疗机构。点击页面进去后,可直接与客服人员在应用内进行沟通。

而这背后,跟你聊天的也不是什么“正经”医生,一位有三年工作经验的“竞价专员”告诉记者:

“病人在搜索医疗信息的时候,自然会进入医疗机构的访客界面,他们以为是在跟医生聊天,其实背后是这些员工在操作。”

现在搜索引擎越来越多人使用

在给我们生活带来方便的同时

也请大家擦亮识别真假的眼睛

福利来啦

你生活中遇到过

遇到过类似的虚假事件吗?

欢迎在评论区里留言

给大家提个醒!

我们也将抽取5位粉丝

送上青春上海专属福利

青春上海独家定制抱枕一个!

期待你的精彩故事哦~

来源:共青团中央(ID:gqtzy2014)综合自中国之声、央广网、保定公安、南方都市报

搜索偏袒自家

据英国广播公司报道,欧盟委员会近日宣布,由于谷歌公司在搜索结果中偏袒自家服务,决定对谷歌处以24亿欧元(约合185亿元人民币)的罚款。这也创下了欧盟反垄断最大罚单纪录。对于这项决定,谷歌公司表示反对,称正在考虑上诉。

欧盟委员会的发言人告诉记者,由于谷歌违反原则已有很长时间且已达到严重程度,欧盟委员会才对其罚款24亿欧元(约合185亿元人民币)。记者统计发现,2015年至今,欧盟反垄断罚款金额累计达到5122亿欧元。

欧盟反垄断专员玛格丽特·韦斯塔格表示,欧盟决定对谷歌处以24亿欧元的罚款,因为它违反了欧盟的反托拉斯法。2010年,谷歌遭到欧盟反垄断部门调查。欧盟反垄断官员认为,谷歌违反竞争监管规定,利用其在网上搜索领域近乎垄断的地位,不公平地把客户引向谷歌自家旗下的谷歌购物服务。这种行为阻止了其他公司的产品与谷歌同台竞技的机会,且抹杀了消费者的选择空间。

除了罚款单之外,欧盟委员会还要求谷歌在未来90天内对网页搜索服务进行整改,否则最多将面临谷歌母公司全球日平均营收5%的罚款。

在欧盟委员会对谷歌做出处罚后,多家美国企业致信欧盟反垄断官员,表示欧盟对谷歌的处罚必要且适当,不是地方保护主义。这些美企中包括谷歌一些最激烈的竞争对手。其中,甲骨文去年打赢了一场充满争议的、针对谷歌的版权官司;新闻集团则长期抨击谷歌对传媒产业日益增强的影响力;Yelp已推动欧盟接受它自己提出的针对谷歌的反垄断申诉,但迄今未获成功。据中新社

深度学习在美团搜索广告排序的应用实践是怎么样的

ITPUB

作者 | 薛欢 玉林 王新

转自 | 美团技术团队

AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人、无人配送等多个领域,帮助美团3.2亿消费者和400多万商户改善服务和体验,帮大家吃得更好,生活更好。

基于AI技术,美团搭建了世界上规模最大,复杂度最高的多人、多点实时智能配送调度系统;基于AI技术,美团推出了业内第一款大规模落地的企业应用级语音交互产品,为50万骑手配备了智能语音系统;基于AI技术,美团构建了世界上最大的菜品知识库,为200多万商家、3亿多件商品绘制了知识图谱,为2.5亿用户提供了精准的用户画像,并构建了世界上用户规模最大、复杂度最高的O2O智能推荐平台。

美团这个全球最大生活服务互联网平台的“大脑”是怎么构建的?从本周起,我们将连续发表“AI in 美团”系列文章,给大家全面揭开各项技术的内幕。

另外,业界第一部全面讲述互联网机器学习实践的图书《美团机器学习实践》也即将上市,敬请期待。

一、前言

在计算广告场景中,需要平衡和优化三个参与方——用户、广告主、平台的关键指标,而预估点击率CTR(Click-through Rate)和转化率CVR(Conversion Rate)是其中非常重要的一环,准确地预估CTR和CVR对于提高流量变现效率,提升广告主ROI(Return on Investment),保证用户体验等都有重要的指导作用。

传统的CTR/CVR预估,典型的机器学习方法包括人工特征工程 + LR(Logistic Regression)[1]、GBDT(Gradient Boosting Decision Tree)[2] + LR、FM(Factorization Machine)[3]和FFM(Field-aware Factorization Machine)[4]等模型。相比于传统机器学习方法,深度学习模型近几年在多领域多任务(图像识别、物体检测、翻译系统等)的突出表现,印证了神经网络的强大表达能力,以及端到端模型有效的特征构造能力。同时各种开源深度学习框架层出不穷,美团集团数据平台中心也迅速地搭建了GPU计算平台,提供GPU集群,支持TensorFlow、MXNet、Caffe等框架,提供数据预处理、模型训练、离线预测、模型部署等功能,为集团各部门的策略算法迭代提供了强有力的支持。

美团海量的用户与商家数据,广告复杂的场景下众多的影响因素,为深度学习方法的应用落地提供了丰富的场景。本文将结合广告特殊的业务场景,介绍美团搜索广告场景下深度学习的应用和探索。主要包括以下两大部分:

  • CTR/CVR预估由机器学习向深度学习迁移的模型探索。
  • CTR/CVR预估基于深度学习模型的线下训练/线上预估的工程优化。

二、从机器学习到深度学习的模型探索

2.1 场景与特征

美团搜索广告业务囊括了关键词搜索、频道筛选等业务,覆盖了美食、休娱、酒店、丽人、结婚、亲子等200多种应用场景,用户需求具有多样性。同时O2O模式下存在地理位置、时间等独特的限制。

结合上述场景,我们抽取了以下几大类特征:

  • 用户特征
    • 人口属性:用户年龄,性别,职业等。
    • 行为特征:对商户/商圈/品类的偏好(实时、历史),外卖偏好,活跃度等。
    • 建模特征:基于用户的行为序列建模产生的特征等。
  • 商户特征
    • 属性特征:品类,城市,商圈,品牌,价格,促销,星级,评论等。
    • 统计特征:不同维度/时间粒度的统计特征等。
    • 图像特征:类别,建模特征等。
    • 业务特征:酒店房型等。
  • Query特征
    • 分词,意图,与商户相似度,业务特征等。
  • 上下文特征
    • 时间,距离,地理位置,请求品类,竞争情况等。
    • 广告曝光位次。

结合美团多品类的业务特点及O2O模式独特的需求,着重介绍几个业务场景以及如何刻画:

  • 用户的消费场景
    • “附近”请求:美团和大众点评App中,大部分用户发起请求为“附近”请求,即寻找附近的美食、酒店、休闲娱乐场所等。因此给用户返回就近的商户可以起到事半功倍的效果。“请求到商户的距离”特征可以很好地刻画这一需求。
    • “指定区域(商圈)”请求:寻找指定区域的商户,这个区域的属性可作为该流量的信息表征。
    • “位置”请求:用户搜索词为某个位置,比如“五道口”,和指定区域类似,识别位置坐标,计算商户到该坐标的距离。
    • “家/公司”: 用户部分的消费场所为“家” 或 “公司”,比如寻找“家”附近的美食,在“公司”附近点餐等,根据用户画像得到的用户“家”和“公司”的位置来识别这种场景。
  • 多品类
    • 针对美食、酒店、休娱、丽人、结婚、亲子等众多品类的消费习惯以及服务方式,将数据拆分成三大部分,包括美食、酒店、综合(休娱、丽人、结婚、亲子等)。其中美食表达用户的餐饮需求,酒店表达用户的旅游及住宿需求,综合表达用户的其他生活需求。
  • 用户的行为轨迹
    • 实验中发现用户的实时行为对表达用户需求起到很重要的作用。比如用户想找个餐馆聚餐,先筛选了美食,发现附近有火锅、韩餐、日料等店,大家对火锅比较感兴趣,又去搜索特定火锅等等。用户点击过的商户、品类、位置,以及行为序列等都对用户下一刻的决策起到很大作用。

2.2 模型

搜索广告CTR/CVR预估经历了从传统机器学习模型到深度学习模型的过渡。下面先简单介绍下传统机器学习模型(GBDT、LR、FM & FFM)及应用,然后再详细介绍在深度学习模型的迭代。

GBDT

GBDT又叫MART(Multiple Additive Regression Tree),是一种迭代的决策树算法。它由多棵决策树组成,所有树的结论累加起来作为最终答案。它能自动发现多种有区分性的特征以及特征组合,并省去了复杂的特征预处理逻辑。Facebook实现GBDT + LR[5]的方案,并取得了一定的成果。

LR

LR可以视作单层单节点的“DNN”, 是一种宽而不深的结构,所有的特征直接作用在最后的输出结果上。模型优点是简单、可控性好,但是效果的好坏直接取决于特征工程的程度,需要非常精细的连续型、离散型、时间型等特征处理及特征组合。通常通过正则化等方式控制过拟合。

FM & FFM

FM可以看做带特征交叉的LR,如下图所示:

从神经网络的角度考虑,可以看做下图的简单网络搭建方式:

模型覆盖了LR的宽模型结构,同时也引入了交叉特征,增加模型的非线性,提升模型容量,能捕捉更多的信息,对于广告CTR预估等复杂场景有更好的捕捉。

在使用DNN模型之前,搜索广告CTR预估使用了FFM模型,FFM模型中引入field概念,把n个特征归属到f个field里,得到nf个隐向量的二次项,拟合公式如下:

上式中,fj 表示第j个特征所属的field。设定隐向量长度为k,那么相比于FM的nk个二次项参数,FFM有nkf个二次项参数,学习和表达能力也更强。

例如,在搜索广告场景中,假设将特征划分到8个Field,分别是用户、广告、Query、上下文、用户-广告、上下文-广告、用户-上下文及其他,相对于FM能更好地捕捉每个Field的信息以及交叉信息,每个特征构建的隐向量长度8*k, 整个模型参数空间为8kn+n+1。

Yu-Chin Juan实现了一个C++版的FFM模型工具包,但是该工具包只能在单机训练,难以支持大规模的训练数据及特征集合;并且它省略了常数项和一次项,只包含了特征交叉项,对于某些特征的优化需求难以满足,因此我们开发了基于PS-Lite的分布式FFM训练工具支持亿级别样本,千万级别特征,分钟级完成训练,目前已经在公司内部普遍使用),主要添加了以下新的特性:

  • 支持FFM模型的分布式训练。
  • 支持一次项和常数项参数学习,支持部分特征只学习一次项参数(不需要和其他特征做交叉运算),例如广告位次特征等。拟合公式如下:
  • 支持多种优化算法。

从GBDT模型切到FFM模型,积累的效果如下所示,主要的提升来源于对大规模离散特征的刻画及使用更充分的训练数据:

DNN

从上面的介绍大家可以看到,美团场景具有多样性和很高的复杂度,而实验表明从线性的LR到具备非线性交叉的FM,到具备Field信息交叉的FFM,模型复杂度(模型容量)的提升,带来的都是结果的提升。而LR和FM/FFM可以视作简单的浅层神经网络模型,基于下面一些考虑,我们在搜索广告的场景下把CTR模型切换到深度学习神经网络模型:

  • 通过改进模型结构,加入深度结构,利用端到端的结构挖掘高阶非线性特征,以及浅层模型无法捕捉的潜在模式。
  • 对于某些ID类特别稀疏的特征,可以在模型中学习到保持分布关系的稠密表达(embedding)。
  • 充分利用图片和文本等在简单模型中不好利用的信息。

我们主要尝试了以下网络结构和超参调优的实验。

Wide & Deep

首先尝试的是Google提出的经典模型Wide & Deep Model[6],模型包含Wide和Deep两个部分,其中Wide部分可以很好地学习样本中的高频部分,在LR中使用到的特征可以直接在这个部分使用,但对于没有见过的ID类特征,模型学习能力较差,同时合理的人工特征工程对于这个部分的表达有帮助。Deep部分可以补充学习样本中的长尾部分,同时提高模型的泛化能力。Wide和Deep部分在这个端到端的模型里会联合训练。

在完成场景与特征部分介绍的特征工程后,我们基于Wide & Deep模型进行结构调整,搭建了以下网络:

在搜索广告的场景中,上图的Part_1包含离散型特征及部分连续型特征离散化后的结果 (例如用户ID、广告ID、商圈ID、品类ID、GEO、各种统计类特征离散化结果等等)。离散化方式主要采用等频划分或MDLP[7]。每个域构建自己的embedding向量 (缺失特征和按照一定阈值过滤后的低频特征在这里统一视作Rare特征),得到特征的Representation,然后通过Pooling层做采样,并拼接在一起进行信息融合。

右侧的Part_2部分主要包含我们场景下的统计类特征及部分其他途径建模表示后输入的特征 (例如图片特征、文本特征等),和Part_1的最后一层拼接在一起做信息融合。

Part_3为多个全连接层,每个Layer后面连接激活函数,例如ReLu, Tanh等。

右上的Part_4部分主要包含广告曝光位次Position Bias)及部分离散特征,主要为了提高模型的记忆性,具有更强的刻画能力。Wide和Deep部分结合,得到最终的模型:

深度学习模型在图像语音等数据上有显著作用的原因之一是,我们在这类数据上不太方便产出能很好刻画场景的特征,人工特征+传统机器学习模型并不能学习出来全面合理的数据分布表示,而深度学习end-to-end的方式,直接结合Label去学习如何从原始数据抽取合适的表达(representation)。但是在美团等电商的业务场景下,输入的数据形态非常丰富,有很多业务数据有明确的物理含义,因此一部分人工特征工程也是必要的,提前对信息做一个合理的抽取表示,再通过神经网络学习进行更好的信息融合和表达。

在美团搜索广告的场景下,用户的实时行为有非常强的指代性,但是以原始形态直接送入神经网络,会损失掉很多信息,因此我们对它进行了不同方式描述和表示,再送入神经网络之中进行信息融合和学习。另一类很有作用的信息是图像信息,这部分信息的一种处理方式是,可以通过end-to-end的方式,用卷积神经网络和DNN进行拼接做信息融合,但是可能会有网络的复杂度过高,以及训练的收敛速度等问题,也可以选择用CNN预先抽取特征,再进行信息融合。

下面以这两类数据特征为例,介绍在Wide & Deep模型中的使用方式。

  • 用户实时行为
    • 行为实体 用户的实时行为包括点击商户(C_P)、下单商户(O_P)、搜索(Q)、筛选品类(S)等。商户的上层属性包括品类(Type: C_Type, O_Type)、位置(Loc: C_Loc, O_Loc)等。
    • Item Embedding 对用户的行为实体构建embedding向量,然后进行Sum/Average/Weighted Pooling,和其他特征拼接在一起。实验发现,上层属性实体(C_Type, O_Type, C_Loc, O_Loc)的表现很正向,离线效果有了很明显的提升。但是C_P, O_P, Q, S这些实体因为过于稀疏,导致模型过拟合严重,离线效果变差。因此,我们做了两方面的改进: 1. 使用更充分的数据,单独对用户行为序列建模。例如LSTM模型,基于用户当前的行为序列,来预测用户下一时刻的行为,从中得到当前时刻的“Memory信息”,作为对用户的embedding表示;或Word2Vec模型,生成行为实体的embedding表示,Doc2Vec模型,得到用户的embedding表示。实验发现,将用户的embedding表示加入到模型Part_2部分,特征覆盖率增加,离线效果有了明显提升,而且由于模型参数空间增加很小,模型训练的时间基本不变。 2. 使用以上方法产生的行为实体embedding作为模型参数初始值,并在模型训练过程中进行fine tuning。同时为了解决过拟合问题,对不同域的特征设置不同的阈值过滤。
    • 计数特征 即对不同行为实体发生的频次,它是对行为实体更上一层的抽象。
    • Pattern特征 用户最近期的几个行为实体序列(例如A-B-C)作为Pattern特征,它表示了行为实体之间的顺序关系,也更细粒度地描述了用户的行为轨迹。
  • 图片
    • 描述 商户的头图在App商品展示中占据着很重要的位置,而图片也非常吸引用户的注意力。
    • 图片分类特征 使用VGG16、Inception V4等训练图片分类模型,提取图片特征,然后加入到CTR模型中。
    • E2E model 将Wide & Deep模型和图片分类模型结合起来,训练端到端的网络。

从FFM模型切到Wide & Deep模型,积累到目前的效果如下所示,主要的提升来源于模型的非线性表达及对更多特征的更充分刻画。

DeepFM

华为诺亚方舟团队结合FM相比LR的特征交叉的功能,将Wide & Deep部分的LR部分替换成FM来避免人工特征工程,于是有了DeepFM[8],网络结构如下图所示:

比起Wide & Deep的LR部分,DeepFM采用FM作为Wide部分的输出,在训练过程中共享了对不同Field特征的embedding信息。

我们在部分业务上尝试了DeepFM模型,并进行了超参的重新调优,取得了一定的效果。其他业务也在尝试中。具体效果如下:

Multi-Task

广告预估场景中存在多个训练任务,比如CTR、CVR、交易额等。既考虑到多个任务之间的联系,又考虑到任务之间的差别,我们利用Multi-Task Learning的思想,同时预估点击率、下单率,模型结构如下图所示:

  • 由于CTR、CVR两个任务非常类似,所以采用“Hard Parameter Sharing”的结构,完全共享网络层的参数,只在输出层区分不同的任务。
  • 由于下单行为受展现位次的影响非常小,所以下单率的输出层不考虑位次偏差的因素。
  • 输出层在不同任务上单独增加所需特征。
  • 离线训练和线上预估流程减半,性能提升;效果上相对于单模型,效果基本持平:

近期,阿里发表论文“Entire Space Multi-Task Model”[9],提出目前CVR预估主要存在Sample Selection Bias(SSB)和Data Sparsity(DS)两个问题,并提出在全局空间建模(以pCTCVR和pCTR来优化CVR)和特征Transform的方法来解决。具体的Loss Function是:

网络结构是:

超参调优

除了以上对网络结构的尝试,我们也进行了多组超参的调优。神经网络最常用的超参设置有:隐层层数及节点数、学习率、正则化、Dropout Ratio、优化器、激活函数、Batch Normalization、Batch Size等。不同的参数对神经网络的影响不同,神经网络常见的一些问题也可以通过超参的设置来解决:

  • 过拟合
    • 网络宽度深度适当调小,正则化参数适当调大,Dropout Ratio适当调大等。
  • 欠拟合
    • 网络宽度深度适当调大,正则化参数调小,学习率减小等。
  • 梯度消失/爆炸问题
    • 合适的激活函数,添加Batch Normalization,网络宽度深度变小等。
  • 局部最优解
    • 调大Learning Rate,合适的优化器,减小Batch Size等。
  • Covariate Shift
    • 增加Batch Normalization,网络宽度深度变小等。

影响神经网络的超参数非常多,神经网络调参也是一件非常重要的事情。工业界比较实用的调参方法包括:

  • 网格搜索/Grid Search:这是在机器学习模型调参时最常用到的方法,对每个超参数都敲定几个要尝试的候选值,形成一个网格,把所有超参数网格中的组合遍历一下尝试效果。简单暴力,如果能全部遍历的话,结果比较可靠。但是时间开销比较大,神经网络的场景下一般尝试不了太多的参数组合。
  • 随机搜索/Random Search:Bengio在“Random Search for Hyper-Parameter Optimization”[10]中指出,Random Search比Grid Search更有效。实际操作的时候,可以先用Grid Search的方法,得到所有候选参数,然后每次从中随机选择进行训练。这种方式的优点是因为采样,时间开销变小,但另一方面,也有可能会错过较优的超参数组合。
  • 分阶段调参:先进行初步范围搜索,然后根据好结果出现的地方,再缩小范围进行更精细的搜索。或者根据经验值固定住其他的超参数,有针对地实验其中一个超参数,逐次迭代直至完成所有超参数的选择。这个方式的优点是可以在优先尝试次数中,拿到效果较好的结果。

我们在实际调参过程中,使用的是第3种方式,在根据经验参数初始化超参数之后,按照隐层大小->学习率->Batch Size->Drop out/L1/L2的顺序进行参数调优。

在搜索广告数据集上,不同超参的实验结果如下:

2.3 小结

搜索广告排序模型经历了从GBDT –> FFM –> DNN的迭代,同时构建了更加完善的特征体系,线下AUC累积提升13%+,线上CTR累积提升15%+。

三、基于深度学习模型的工程优化

3.1 线下训练

TensorFlow程序如果单机运行中出现性能问题,一般会有以下几种问题:

  1. 复杂的预处理逻辑耦合在训练过程中。
  2. 选择正确的IO方式。

剥离预处理流程

在模型的试验阶段,为了快速试验,数据预处理逻辑与模型训练部分都耦合在一起,而数据预处理包含大量IO类型操作,所以很适合用HadoopMR或者Spark处理。具体流程如下:

  1. 在预处理阶段将查表、join字典等操作都做完,并且将查询结果与原始数据merge在一起。
  2. 将libfm格式的数据转为易于TensorFlow操作的SparseTensor方式:
  3. 将原始数据转换为TensorFlow Record。

选择正确的IO方式

TensorFlow读取数据的方式主要有2种,一般选择错误会造成性能问题,两种方式为:

  1. Feed_dict 通过feed_dict将数据喂给session.run函数,这种方式的好处是思路很清晰,易于理解。缺点是性能差,性能差的原因是feed给session的数据需要在session.run之前准备好,如果之前这个数据没有进入内存,那么就需要等待数据进入内存,而在实际场景中,这不仅仅是等待数据从磁盘或者网络进入内存的事情,还可能包括很多前期预处理的工作也在这里做,所以相当于一个串行过程。而数据进入内存后,还要串行的调用PyArrayToTF_Tensor,将其copy成tensorflow的tensorValue。此时,GPU显存处于等待状态,同时,由于tf的Graph中的input为空,所以CPU也处于等待状态,无法运算。
  2. RecordReader 这种方式是tf在Graph中将读取数据这个操作看做图中一个operation节点,减少了一个copy的过程。同时,在tf中还有batch与threads的概念,可以异步的读取数据,保证在GPU或者CPU进行计算的时候,读取数据这个操作也可以多线程异步执行。静态图中各个节点间的阻塞:在一个复杂的DAG计算图中,如果有一个点计算比较慢时,会造成阻塞,下游节点不得不等待。此时,首先要考虑的问题是图中节点参数所存储的位置是否正确。比如如果某个计算节点是在GPU上运算,那么如果这个节点所有依赖的variable对象声明在CPU上,那么就要做一次memcpy,将其从内存中copy到GPU上。因为GPU计算的很快,所以大部分时间花在拷贝上了。总之,如果网络模型比较简单,那么这种操作就会非常致命;如果网络结构复杂,比如网络层次非常深,那么这个问题倒不是太大的问题了。

在这个Case中,因为需要提升吞吐,而不仅仅是在试验阶段。所以需要用RecordReader方式处理数据。

优化过程

  1. 将整体程序中的预处理部分从代码中去除,直接用Map-Reduce批处理去做(因为批处理可以将数据分散去做,所以性能非常好,2亿的数据分散到4900多个map中,大概处理了15分钟左右)。
  2. MR输出为TensorFlow Record格式,避免使用Feed_dict。
  3. 数据预读,也就是用多进程的方式,将HDFS上预处理好的数据拉取到本地磁盘(使用joblib库+shell将HDFS数据用多进程的方式拉取到本地,基本可以打满节点带宽2.4GB/s,所以,拉取数据也可以在10分钟内完成)。
  4. 程序通过TensorFlow提供的TFrecordReader的方式读取本地磁盘上的数据,这部分的性能提升是最为明显的。原有的程序处理数据的性能大概是1000条/秒,而通过TFrecordReader读取数据并且处理,性能大概是18000条/秒,性能大概提升了18倍。
  5. 由于每次run的时候计算都要等待TFrecordReader读出数据,而没用利用batch的方式。如果用多线程batch可以在计算期间异步读取数据。在TensorFlow所有例子中都是使用TFRecordReader的read接口去读取数据,再用batch将数据多线程抓过来。但是,其实这样做加速很慢。需要使用TFRecordReader的read_up_to的方法配合batch的equeue_many=True的参数,才可以做到最大的加速比。使用tf.train.batch的API后,性能提升了38倍。

此时,性能已经基本达到我们的预期了。例如整体数据量是2亿,按照以前的性能计算1000条/秒,大概需要运行55个小时。而现在大概需要运行87分钟,再加上预处理(15分钟)与预拉取数据(10分钟)的时间,在不增加任何计算资源的情况下大概需要2个小时以内。而如果是并行处理,则可以在分钟级完成训练。

3.2 线上预估

线上流量是模型效果的试金石。离线训练好的模型只有参与到线上真实流量预估,才能发挥其价值。在演化的过程中,我们开发了一套稳定可靠的线上预估体系,提高了模型迭代的效率。

模型同步

我们开发了一个高可用的同步组件:用户只需要提供线下训练好的模型的HDFS路径,该组件会自动同步到线上服务机器上。该组件基于HTTPFS实现,它是美团离线计算组提供的HDFS的HTTP方式访问接口。同步过程如下:

  1. 同步前,检查模型md5文件,只有该文件更新了,才需要同步。
  2. 同步时,随机链接HTTPFS机器并限制下载速度。
  3. 同步后,校验模型文件md5值并备份旧模型。

同步过程中,如果发生错误或者超时,都会触发报警并重试。依赖这一组件,我们实现了在2min内可靠的将模型文件同步到线上。

模型计算

当前我们线上有两套并行的预估计算服务。

  • 基于TF Serving的模型服务

TF Serving是TensorFlow官方提供的一套用于在线实时预估的框架。它的突出优点是:和TensorFlow无缝链接,具有很好的扩展性。使用TF serving可以快速支持RNN、LSTM、GAN等多种网络结构,而不需要额外开发代码。这非常有利于我们模型快速实验和迭代。

使用这种方式,线上服务需要将特征发送给TF Serving,这不可避免引入了网络IO,给带宽和预估时延带来压力。我们尝试了以下优化,效果显著。

  1. 并发请求。一个请求会召回很多符合条件的广告。在客户端多个广告并发请求TF Serving,可以有效降低整体预估时延。
  2. 特征ID化。通过将字符串类型的特征名哈希到64位整型空间,可以有效减少传输的数据量,降低使用的带宽。

TF Serving服务端的性能差强人意。在典型的五层网络(512*256*256*256*128)下,单个广告的预估时延约4800μs,具体见下图:

  • 定制的模型计算实现

由于广告线上服务需要极高的性能,对于主流深度学习模型,我们也定制开发了具体计算实现。这种方式可以针对性的优化,并避免TF Serving不必要的特征转换和线程同步,从而提高服务性能。

例如全连接DNN模型中使用Relu作为激活函数时,我们可以使用滚动数组、剪枝、寄存器和CPU Cache等优化技巧,具体如下:

// 滚动数组

intnextLayerIndex = currentLayerIndex ^ 1;

System.arraycopy(bias, bOff, data[nextLayerIndex], 0, nextLayerSize);

for(inti = 0; i < currentLayerSize; i ++) {

floatvalue= data[currentLayerIndex][i];

// 剪枝

if(value> 0.0) {

// 寄存器

intindex = wOff + i * nextLayerSize;

// CPU 缓存友好

for(intj = 0; j < nextLayerSize; j++) {

data[nextLayerIndex][j] += value* weights[index + j];

}

}

}

for(inti = 0; i < nextLayerSize; k++) {

data[nextArrayIndex][i] = ReLu(data[nextArrayIndex][i]);

}

arrayIndex = nextArrayIndex;

优化后的单个广告预估时延约650μs,见下图:

综上,当前线上预估采取“两条腿走路”的策略。利用TF Serving快速实验新的模型结构,以保证迭代效率;一旦模型成熟切换主流量,我们会开发定制实现,以保证线上性能。

模型效果

借助于我们的分层实验平台,我们可以方便的分配流量,完成模型的小流量实验上线。该分层实验平台同时提供了分钟粒度的小流量实时效果数据,便于模型评估和效果监控。

四、总结与展望

经过一段时间的摸索与实践,搜索广告业务在深度学习模型排序上有了一定的成果与积累。接下来,我们将继续在特征、模型、工程角度迭代优化。特征上,更深度挖掘用户意图,刻画上下文场景,并结合DNN模型强大的表达能力充分发挥特征的作用。模型上,探索新的网络结构,并结合CNN、RNN、Attention机制等发挥深度学习模型的优势。持续跟进业界动态,并结合实际场景,应用到业务中。工程上,跟进TensorFlow的新特性,并对目前实际应用中遇到的问题针对性优化,以达到性能与效果的提升。我们在持续探索中。

参考文献

[1] Chapelle, O., Manavoglu, E., & Rosales, R. (2015). Simple and scalable response prediction for display advertising. ACM Transactions on Intelligent Systems and Technology (TIST), 5(4), 61.

[2] Friedman, J. H. (2001). Greedy function approximation: a gradient boosting machine. Annals of statistics, 1189-1232.

[3] Rendle, S. (2010, December). Factorization machines. In Data Mining (ICDM), 2010 IEEE 10th International Conference on (pp. 995-1000). IEEE.

[4] Juan, Y., Zhuang, Y., Chin, W. S., & Lin, C. J. (2016, September). Field-aware factorization machines for CTR prediction. In Proceedings of the 10th ACM Conference on Recommender Systems (pp. 43-50). ACM.

[5] He, X., Pan, J., Jin, O., Xu, T., Liu, B., Xu, T., … & Candela, J. Q. (2014, August). Practical lessons from predicting clicks on ads at facebook. In Proceedings of the Eighth International Workshop on Data Mining for Online Advertising (pp. 1-9). ACM.

[6] Cheng, H. T., Koc, L., Harmsen, J., Shaked, T., Chandra, T., Aradhye, H., … & Anil, R. (2016, September). Wide & deep learning for recommender systems. In Proceedings of the 1st Workshop on Deep Learning for Recommender Systems (pp. 7-10). ACM.

[7] Dougherty, J., Kohavi, R., & Sahami, M. (1995). Supervised and unsupervised discretization of continuous features. In Machine Learning Proceedings 1995 (pp. 194-202).

[8] Guo, H., Tang, R., Ye, Y., Li, Z., & He, X. (2017). Deepfm: A factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247.

[9] Ma, X., Zhao, L., Huang, G., Wang, Z., Hu, Z., Zhu, X., & Gai, K. (2018). Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate. arXiv preprint arXiv:1804.07931.

[10] Bergstra, J., & Bengio, Y. (2012). Random search for hyper-parameter optimization. Journal of Machine Learning Research, 13(Feb), 281-305.

作者简介

薛欢,2016年3月加入美团,主要从事搜索广告排序模型相关的工作。

姚强,2016年4月加入美团,主要从事搜索广告召回、机制与排序等相关算法研究应用工作。

玉林,2015年5月加入美团,主要从事搜索广告排序相关的工程优化工作。

王新,2017年4月加入美团,主要从事GPU集群管理与深度学习工程优化的工作。

网信办发布网络搜索新规 付费信息要有显著标识

大学生魏则西在罹患肿瘤后,通过百度搜索发现了北京一家医院的付费广告,并在该院被“莆田系”承包的科室接受了治疗。今年4月14日,魏则西去世,在生命的最后时刻,他在网上表达了对该院和搜索引擎的愤怒。

“付费搜索”这一关键词,随后引起了前所未有的关注。

6月25日,国家互联网信息办公室发布了《互联网信息搜索服务管理规定》。《规定》中,对付费广告等搜索服务进行了更多规范。

关于“收钱删稿”

《规定》明确规定,互联网信息搜索服务提供者及其从业人员,不得通过断开相关链接或者提供含有虚假信息的搜索结果等手段,牟取利益。

关于违法内容:

《规定》要求,互联网信息搜索服务提供者应当落实主体责任,建立健全信息审核、公共信息实时巡查等信息安全管理制度,不得以链接、摘要、联想词等形式提供含有法律法规禁止的信息内容。

关于“付费搜索”

互联网信息搜索服务提供者提供的自然搜索结果、付费搜索信息区分往往不够清晰,容易引起混淆,且部分医疗类等付费搜索信息对应的客户资质不全甚至虚假,给公民的人身财产安全带来隐患。为此,《规定》要求:提供付费搜索信息服务应当依法查验客户有关资质,明确付费搜索信息页面比例上限,醒目区分自然搜索结果与付费搜索信息,对付费搜索信息逐条加注显著标识。

举报方式:

国家互联网信息办公室有关负责人介绍,欢迎广大网友继续对网上相关违法和不良信息进行监督举报。举报方法如下:

互联网违法和不良信息举报中心网址:www.12377. cn;举报电话:12377;举报邮箱:jubao@12377.cn。

App Store启动恶意搜索清理 超200款应用被降权

12月23日消息,今天在苹果搜索“微信”,你会发现微信下面的搜索结果没有了往日的喧嚣,这种“正常”的搜索状态仿佛回到了1年前。

据悉,苹果近期又开始清理恶意搜索,而根据数据显示,本次被降权的应用超过200款,其中影响较大的App接近40款。

苹果应用市场此次搜索清理采取的是人工干预,通过降低app的产品权重(降权)完成,降权是苹果对app最保守的一种惩罚,被降权的app通常会呈现整体搜索下降的态势,但榜单和下载不受直接影响。根据应用雷达的搜索统计,本次被降权的应用超过200款,其中影响较大的app接近40款。这些app主要分布的搜索入口包括:旅游 小说 壁纸 理财等通用搜索词,qq、微信、淘宝、天猫、支付宝、百度、百度地图等BAT核心产品及其主要产品线app名称,饿了么、美团、 大众点评及外卖类主要品牌app名称,美颜美图类主要app名称,爱奇艺等主要视频app名称,唯品会京东等主要购物类app名称,携程等主要旅游类app名称等。

app被人为降权通常是由于app涉嫌违规推广造成的,根据苹果的规定,人为干预正常的榜单或搜索排名都属于违规行为。目前,整个苹果应用市场的主要搜索入口都是由以“ASO”名义刷量的积分墙占领,随着ASO的概念被越来越多的iOS推广人员接触,主要搜索入口便被层层堆量。积分墙的存在最初为了满足开发者以廉价的方式获得激活用户干预苹果搜索和榜单排名,积分墙愈演愈烈的发展已经让目前整个苹果应用市场的搜索排名失去意义,取而代之的是一个积分墙投量榜,换言之,苹果主要的搜索入口基本全在积分墙的控制下,这迫使越来越多的开发者开始“盲目”参与或者说被卷入其中。在这种态势下,开发者依靠积分墙通过搜索入口获取真实用户的成本早已高出自然流量的几十上百倍,高成本还推生出另外一种“低成本”的非自然积分墙形态,也让积分墙的总体质量大幅降低及风险的大幅增加,本次降权也涉及了各种形态的积分墙。

被降权的app会损失过去很长一段时间的推广、运营为自身搜索累积的权重,因为降权惩罚不是永久性的,因此通过正规的推广运营手段可以缓慢恢复,恢复时间视被降权程度和后期应对措施而定。苹果的降权可以暂时缓解积分墙带来的推广泡沫,很多app也获得了搜索排名的自然提升,但开发者对当前市场的搜索推广不能正确认识,仍会让整个搜索入口的泡沫更加膨胀。

目前积分墙干预搜索市场的周期已达1年半,苹果搜索漏洞暴露的时间越长,就会有更为极端的方式干预应用的搜索排名,这就会刺激苹果采取强制措施应对。从本次调整的分析可见,这属于苹果对APP推广一次范围较大的警告级别的处理,没有从根本上起到震慑作用。但这也是苹果一贯的作风,他需要优先维护开发者和苹果用户的利益,一旦开发者继续触碰底线,看到苹果底牌的时间也就不远了。

当前,ASO已经作为一种推广被越来越多的开发者纳入规划,但应用市场依旧有着巨大的空间等待全方面正确应用ASO理念的app。如果我们正在进行或即将介入ASO工作,如何避免走进深坑、误入泡沫,如何甄别风险、高效推广,是每个iOS推广者需要的修行。

白鲸社区 – 移动出海第一平台

文章地址

App搜索功能探析

  • 其他的。。。。

导读:说到一个应用的搜索功能,大家是否立刻会想到一个放大镜的图标和一个矩形输入框?搜索功能在众多app里都占据一个或重或轻的位置,为了充分利用到产品中的资源,让用户能够快速准确地找到目标信息,搜索功能就显得很有必要。但是不同类别的APP,不同的使用场景下,搜索功能的设计以及搜索结果的呈现也有所不同。今天我们就从搜索前后分别来分析app的搜索功能~

正文

搜索入口

输入搜索内容前,我们可以看到的是搜索入口的设计。从入口的设计来看,大体有如下几种:

  • 独立的一级tab,将一级界面作为独立搜索页面的形式;

  • 顶栏为搜索栏,搜索输入框直接呈现的形式;

  • 呈现一个在顶栏的icon按钮点击展开的形式;

  • 下拉后展现搜索栏,非固定展现形式。

如下图:

以上面的截图为例分析,独立的一级tab体现搜索功能在app中级别相对较高,搜索功能相对重要;

搜索栏置顶存在,相较于第一种来说搜索功能层级更低,但也能方便用户不论是在浏览过程或是切换tab时都随时进行搜索操作,用户在使用app的过程中,如果没有即时能够进行的操作,易降低用户依赖度;

对于入口仅为一个icon按钮的情况下,减少了导航栏占用,但相对地也弱化了搜索功能。哔哩哔哩的视频大多由用户自己上传,即使是上线了最新官方内容,对于用户来说想要浏览的新内容都是未知的,既然依赖于推送,自然搜索功能也就相对弱化;

通过下拉手势展示的搜索框,可能表示该app较为弱化了搜索功能,对于多数用户来说下拉手势属于习惯性手势之一,由于用户的习惯性下拉操作,搜索栏在不占用顶栏的状态下也能让用户立刻找到。

搜索方式1. 文字搜索

从搜索方式来看,搜索功能呈现出的形式越来越丰富。最基础最常见的就是文字搜索。但是丰富的其他形式也是作为一种搜索的辅助功能,引导用户在搜索上获得更便捷更高效的体验。

搜索时,直接输入文字,搜索到与输入文字相关的信息。大多app都有采用边输入边联想的输入模式,这样可以提高搜索效率,作为辅助搜索时获得信息更加快捷。

如下图:

淘宝的辅助多重筛选搜索,输入时展现的一系列联想内容,点击右边的一个拓展icon,就可以采用联想出的内容,在此基础上继续缩小范围筛选,从而帮助用户获得最接近需求的内容。如下图↓

当应用里的内容涉及的类别较多、范围较为广泛,为了搜索出的内容更加准确,减少用户在众多相似的搜索结果中选择内容时的干扰,可采用分类标签的方式便于用户搜索。这种主要适用于用户已知需要搜索的内容的类别,缩小搜索范围。如下图:

对于用来获得最新资讯、热门、新闻等的应用,针对无目的性浏览搜索和对要搜的内容并没有多少了解的用户,目的就是为了让他们了解到这些内容,所以热搜标签会是一个很常见且高效的选择。这种提供降低了用户搜索成本,提供了搜索建议,在一定程度上还可以进行运营推广。如下图:

按历史搜索的出现给在搜索后临时退出app或要再次搜索之前搜索过的内容的用户提高了搜索效率。

多数用户会在重新输入一次搜索过的内容的时候失去部分耐心,因而降低用户体验。

举一个例子,买完火车票以后查看发车时间,如果每次回去查看都要重新输入,就会产生厌烦情绪。

在影视类app中,历史搜索使得用户能快速进入上次观看的影视内容,在购物类App中,历史搜索则使得对上次的购物满意的用户更快找到之前的店铺,降低思考成本。如下图:

2. 语音搜索

除了文字搜索,语音搜索的发展也逐渐在改变人们的使用方式。对于中老年人来说,语音搜索比文字搜索方便得多,他们使用智能机时不用再努力特意去学习打字,只要点击一个按钮就可以轻松输入他们想要的内容。而对于年轻人来说,虽然打字是件简单的事情,但是随着大多数的年轻人且越来越多在走路时也玩手机的趋势来看,语音搜索对于他们来说也是个十分便利的选择,如同语音聊天一样,人们会渐渐对语音输入产生依赖。如下图:

听歌识曲出现在多数音乐类app,年轻人喜欢听音乐,也喜欢在咖啡店或者走路时享受听音乐的乐趣,还有在即时听到音乐的时候想要立刻获得歌曲信息,这时候文字搜索就显得十分局限,让用户点开app就能直接根据歌曲片段搜索到该首歌曲,这便让用户体验达到绝佳效果,因此多数音乐类app会直接将听歌识曲放置在首页做成一个二级界面。如下图↓

部分音乐类app还针对一些场合做了些语音搜索上的优化,比如哼歌识曲。对于没能及时听歌识曲,没有记住歌词,突然想要找回以前听过的已经不记得名字和歌词的歌之类的情况,哼歌识曲就提高了搜索到用户想要的内容的可能。如下图:

3. 图像搜索

图像搜索也是一个便利的搜索方式。较为基础的是大家很熟悉的「以图搜图」,既可以当即拍照,也可以点击左下角上传图片进行识别。对于没有二维码和条形码的物品,如何快速搜索到并购买该物品呢?有时候在商场看到一件衣服,觉得价格太昂贵,或是看见其他人买了一个非常喜欢的东西,也想买一个同款,却又很难只根据颜色和表达不出的款式风格搜到最相近的物品。当场拍下物品的照片以后,用「以图搜图」模式搜索,识别出与拍摄物品相似的物品。如下图:

AR扫又是「以图搜图」的一个优化,直接扫描即可识别物品,减少了用户拍照又上传的操作成本,如下图:

搜索结果

从搜索结果看,又有许多不同形式的功能展现。搜索结果可能有纯文字列表的展示、文字加图片的展示、以及按分类显示的展示。以网易云音乐为例,纯文字的展示对于搜索结果来说已经是较为主要且明显的内容,显示出图片没有其他明显的作用。而对于购物类app,物品的展示图片就显得相对重要,用户会根据物品的样图来决定想要查看的内容。对于微信来说,微信并不是专门为用户想看的资讯内容而生,用微信搜索的用户可能是因为近期在微信某处看到的某个内容相关,但是突然忘记来源究竟是小程序还是朋友圈,展现的内容就按分类罗列,搜索不局限在某个区域内。如下图:

搜索结果还可以以其他形式展现。以大众点评为例,在给根据地图搜索附近商店可以给用户直观地展现,根据远近和路线决定目的地。如下图:

除了搜索结果的展现形式不同外,还有搜索结果提供的可操作功能的不同。搜索范围可以是精确搜索,也可以是模糊搜索。模糊搜索比精确搜索的范围更广,对比精确搜索的准确度偏低。精确搜索无法识别其中的关键字而给出相关结果,而是将搜索词条整个作为整体进行的搜索,相对模糊搜索而言较为局限。如下图:

根据搜索的结果的范围度可进行分类筛选,为了让搜索结果缩小范围,搜索更精确,如下图:

搜索功能中搜索的内容也可以不局限于搜索的标题和一级展示内容,可能根据搜索的结果中的部分内容而得出与之相关的结果搜索。在音乐类app中较为常见是根据歌词搜索歌名,很多歌曲可能忘记歌名只会哼唱一两句歌词,比起书或文章来说,歌曲的歌词内容较少,因此根据歌曲内容搜索也容易实现。

如下图:

在影视类app里比较常见还有一种功能,在搜索结果项中给出可进一步操作的按钮。由于搜索出的结果项较少,搜索到的内容较为专一,直接操作对用户来说减少了操作成本。不同于淘宝之类的购物类app,这类app因为需要查看更多商品详情再做购买决定,而类似影视类app则搜到的内容基本符合用户需求,所以搜索的结果项放置可操作按钮。如下图:

总结

根据app的特性和用户需求分析,考虑用户在搜索时需要的搜索方式,不同app采用不同的搜索功能设计,可以提升用户体验。

根据用户需求,一步步优化和改善,从最基础的文字搜索,考虑无法满足在文字搜索上的用户需求,在合适的时候辅助以声音和图像搜索。

在图像搜索和语音搜索上进一步改善做出新的搜索优化,正如淘宝这样的app,从文字搜索到扫一扫,再到拍立淘,甚至复制粘贴淘口令,已经渐渐把淘宝里的搜索体系完善了。

搜索并不是只局限在一个放大镜图标和一个输入框上,先仔细考虑本身产品的内容特性和不同使用场景,再来决定搜索功能对于该产品的重要性及分类以及搜索结果呈现等其它设计。

本文旨在从app的搜索功能这一小部分的讨论引导大家从每一个小的细节和功能上设计好app,希望大家在看完这篇文章以后能对搜索功能有一个更为细致的见解。从当前产品的具体形态来思考搜索功能的重要性以及它的使用场景,提供给用户便捷的搜索方式、合理的搜索建议及精准的搜索结果,提升搜索体验,让用户高效准确地找到目标信息。

本文由 @WOOSEVELT 原创发布于人人都是产品经理。

谷歌趋势统计 一周内波场搜索指数超越以太坊

据Google Trends统计,波场的关键词搜索正式超越以太坊。如图所示,近一段日子以来,TRON在搜索量的数据上,明显持续高于Ethereum。

谷歌趋势 (Google Trends)是Google推出的一款基于搜索日志分析的应用产品,它通过分析Google全球数以十亿计的搜索结果,告诉用户某一搜索关键词各个时期下在Google被搜索的频率和相关统计数据。

在刚过去的十一月,波场TRON新增用户突破两万,高于以太坊十倍。同时,TRON单日转账数达到184万,达到以太坊三倍。随着波场社区的完善,将会有越来越多的开发者以及国内外受众关注到波场!

从生意参谋的搜索热度和搜索人气 能分析出哪些机会

1000个人眼里,有1000个哈姆雷特

同样一个生意参谋,10000个运营眼里,有20000个以上分析结果

经常有电商兄弟讨论,怎样才能运营好一个店铺,怎样才能找到靠谱的运营。

遇到这个问题的时候,总是想起“亮剑”,李云龙说过一句话

原话记不太清了,大意就是,别看咱没上过学,但是第一次看到地图,在脑子里就是真山真水啊。

什么意思?

2个字:天赋

二哥做电商快8年了,包括自己做,打工,培训、辅导策划都做过,没什么拿得出手的成绩,但是因为喜欢分享,结识了上千个做电商的朋友,各行各业都有,对这个问题呢,我总结了一下。

运营其实分2种

一、研究规则的运营:就是与电商平台的规则打交道,研究破解这些规则,所谓道高一尺魔高一丈。

大部分运营是这一类,也不用统计,看看派代首页就知道了,老运营一看就吐的技术贴,尤其是直通车贴,每天在首页都能看到。

这类兄弟的天赋是分析,虽然水平不一样,可以一天不说话,每天只看电脑。

二、研究商道的运营:电商也是商人,终究离不开产品和消费者,这些运营很多是隐形冠军,闷头挣钱的。

这类兄弟的天赋是某个领域的专家,北京叫“虫子”,就是特别善于钻研

能同时具备以上2个能力的运营,二哥也就认识这么几位,其他的兄弟,都是各干各的。

好了,废话不多说了,说今天的正题

官方的解释

搜索人气和热度:统计日期内,根据用于搜索行为数拟合出的指数类指标。指标越高,表示搜索行为越多。

翻译成人话:

搜索人气:某个关键词在某个时间内的搜索人数,一天内有多少人搜这个词搜索热度:该关键词在某个时间内,被搜索的次数。一天内被搜了多少次。

一般情况下,热度肯定大于人气。——————比如:关键词:婴儿床 人气:5000热度:13000就是说,“婴儿床”这个关键词,在一天内有5000人搜索,被搜索了13000次,平均一个人搜了2.6次

问题来了

为什么会有人搜好几次这个关键词呢?

搜的次数越多,证明下单时候的决策时间越长,一般高单价的产品或者新品会出现这种情况。

如果一个关键词的搜索热度和人气,都呈现上升趋势,而热度的增长幅度大于人气,证明这是一个很好的市场,需求旺盛,而且没有被头部卖家垄断。

如果热度和人气都比较平稳,那就证明这个关键词所代表的需求,比较稳定,没有太大的波动,如果你要进入这个市场,只能靠抢,就是抢老卖家的流量。

如果热度和人气的比例相差不大,就证明这个关键词下的成交比较旺盛,购买决策时间短,

一般客单价比较低的产品是这种情况,简单说就是,看了就买吧,几块钱的东西,没什么可以犹豫的,懒的比较。

而这种关键词下,大部分被搜索的头部卖家垄断,如果是新卖家要进入这种市场,要好好考虑一下,不要看头部卖家一个月几千几万的销量,人家已经是航母级别的,你要超过去,算一下自己要付出多少,看看能不能承受,或者有没有弯道超车的可能性。

成人网站2017年搜索排行榜 守望先锋 小丑女大热

知名网站Pxxxxxb在公开了2017年热搜游戏角色榜后,又公开了更多的搜索数据和排行,《守望先锋》现身多个榜单,并且名次都不低,尤其是男性用户,对《守望先锋》的热爱从榜单就可窥一二。

2017年热搜词榜单中,《守望先锋》排到了第13,另外VR一词也进入了榜单,看来虽然在去年,VR的热度有所平息,但一些PB的用户对VR视频的热爱依旧不减。

男性用户的搜索排行中,《守望先锋》排名第12。

最受欢迎的电影角色搜索中,哈莉奎茵(小丑女)在2017年依旧大放光彩,排名第一,神奇女侠第二,具体排名如下:

1.哈莉奎茵

2.神奇女侠

3.蝙蝠侠

4.复仇者联盟

5.蜘蛛侠

6.正义联盟

7.美国队长

8.超人

9.死侍

10.Rey(星战)

11.小丑

12.银河护卫队

13.索尔

游戏平台方面,PS主机访问用户占到了56%,另外还有5%的PSV玩家,XBOX用户居次,达到了32%,任天堂玩家加起来也不过7%。

2017年热搜游戏角色榜早先我们已经报道过,前三名皆被《守望先锋》的女性英雄占据,另外《精灵宝可梦》也有6名角色入榜,其中还有小智和皮卡丘,具体请查看之前的报道。