深度学习如何应用在广告 推荐及搜索业务 阿里妈妈实践案例解读

阿里妹导读:靖世,阿里妈妈精准展示技术研究员。2011 年,刚进阿里的他提出了分片线性模型 MLR,极大提高了 CTR 预估的准确性。近期,靖世又带领团队在 CTR 预估方面推出了一个新的模型结构——深层用户网络兴趣分布网络,利用深度学习在用户历史性行为和广告CTR预估之间建立部分匹配。

靖世在行业大会中分享阿里妈妈的深度学习演进之路。以下为演讲实录。

靖世:非常高兴与大家进行“深度学习演进之路”的交流,阿里妈妈是阿里巴巴集团下的大数据营销平台,是负责阿里巴巴变现的一个事业部。我研究的方向是机器学习、计算机视觉、推荐系统和计算广告。我在清华大学读的本科和博士,专业是计算机视觉,毕业之后加入阿里巴巴广告技术部,后来组成阿里妈妈事业部,这个事业部负责阿里所有的广告变现产品。我现在是阿里妈妈的研究员,负责精准定向广告技术团队,负责的产品有智能钻展、直通车定向广告,熟悉阿里系统的同学可能会知道这两个产品。

我将分三个部分来讲一下。先讲互联网数据下的深度学习演进,然后讲一下广告推荐或者搜索业务里面怎么用深度学习,在检索里碰见的问题怎么用深度学习解决,最后对未来的挑战进行展望。

首先,互联网下的大数据。互联网的数据有什么特点?第一个特点是规模大,转化成机器学习的语言就是维度特别高,样本特别多,另外互联网数据内部也有丰富的内在的关系。

这里举一个例子,比如这是一个典型的APP或者互联网网站上的数据,一边是很多用户,另外一边很多物料,以电商为例,物料就是商品。我们现在有很多的用户有很多的商品物料,这两个都是大数据,历史上会看到很多的行为,这是用户跟商品的某种连接关系。再延展下去,每个用户都有他的Profile信息,用户看到商品的标题、详情页以及评论等等,这样延展下去规模非常大的数据会被这些关系连接到一起,这就是互联网数据的特点。

CTR预估以经典的问题为例,为什么CTR预估很重要?这是广告、推荐、搜索业务里的核心技术,这些业务的重要性相信已经不用多提,这三个业务在很多公司来讲都是最核心的业务。以广告为例,为什么广告里的CTR预估很重要?有两点。第一,CTR预估是广告市场深度学习研究的沃土,有很多新的技术可以去探索和演进。第二,CTR预估直接跟互联网企业的平台收入相关,它其实对AI更重要。大家知道现在很多AI公司,包括公司内部的研究方向其实是对未来的布局。现金流从哪儿来?很多互联网企业的现金从广告来,所以广告重要。

以广告为例展开,在深度学习CTR预估核心问题上的应用进展,CTR预估的传统方法分两类,第一类是人工设计的强特征,维度不会非常高,一般来讲就是一些强的统计特征,这种特征上传统的做法,以雅虎为代表的公司用的是GBDT的方法。这样的方法问题在于虽然很简单有效,但是数据的人工处理使数据丧失了分辨力,数据维度降得非常低。第二种主流做法,把数据展开成高维度的数据,经典的做法用大规模的逻辑回归,逻辑回归是广义的线性模型,模型非常简单,但它的模型能力有限。

在介绍深度学习介绍之前,我首先展开一下在阿里妈妈的第一个工作,我们把逻辑回归从简单的线性模型变成非线性模型,变成三层的神经网络。前面提到一个经典的做法用大规模的数据+逻辑回归,这个逻辑回归的一个问题是线性太简单,我们需要去做大量的人工特征工程才能把这个效果变好。这里面我们第一个想法是,如何能够让算法更智能,自动在大规模的数据里面提取非线性的模式。

我们做了这样一个尝试,去做了一个分片线性的模型,背后的思路也比较直观。把整个空间分成很多的区域,每个区域里面是一个线性模型。不同的区域做一些平滑的连接,整个空间就是分片线性的模型,当这个区域数足够多、分片数足够多,就可以逼近任意复杂的非线性曲面。

这是模型用神经网络的观点来看的示意图。来了一个样本之后怎么计算?首先计算对每个区域的隶属度,假设有四个区域,会计算一个隶属度。假设正好这个样本属于第一个区,隶属度是1000,对每个区域里面还有一个预测器或者线性分类器,对每个区域里面有一个预测值,这四个预测值组成起来又是一个向量。上面的四维向量和下面的四维向量做内积,第一个区域的预测值选出来,实际为了数学处理方便用一个软的隶属度表述而并不是1000这种硬的方式。

怎么学习这个学习模型是一个主要的问题。我们还加入了分组系数的技术,使得大数据下的模型有自动选择特征的能力。最终,它会转化成非凸非光滑的问题,这是在2011年提出的模型,2012年上线的算法。非凸非光滑的问题当时没有很好的手段,非光滑数学上表现的不是处处可导,数学上没有导数怎么进行下降也是一个问题。虽然不是处处可导,这个函数处处方向可导,我们用方向导数找到最快下降方向,并用拟牛顿法进行加速。这个工作的名称叫混合逻辑回归MLR,做过CTR预估的同学可能会知道这样一个工作。这是在我们探索深度学习在广告中应用的一个基础。

MLR是三层神经网络,把大规模稀疏的离散化输入变成两个向量做内积,两个向量拼接起来就是一个长的向量,跟现在的嵌入式技术是一样的。把一个特别大规模的数据、不好处理的数据嵌入到一个空间里面变成一个向量,在连续空间一些连续的向量用深度学习比如多层感知机,就非常容易处理。第一步尝试的深度学习是一个非常重要的经验,贯穿了所有的深度学习的设计理念,用MLR产生的中间层向量抽取出来,后面直接去做多层感知机,把这个潜入向量作为多层感知机的输入。这样没有提升效果,原因有两点。第一点,MLR本来就是非线性模式;第二点,因为没有端到端的训练。

后面一个突破,把embedding的学习和多层感知机的训练放在一起端到端学习,比原来的技术有非常明显的提升。这也能够解释为什么深度学习近十年才有大的突破和进展。如果没有端到端训练,用浅层模型每次训练产生feature再训练再产生feature一层一层叠下去。之前很多人尝试都没有得出过这种深度的层叠网络,直到端到端学习,使得我们在很多问题上得到突破。我们把分组的embedding竖过来,上面是多层感知机,这就变成阿里妈妈第一代深度学习网络,基于数百亿样本、数亿的特征维度,多GPU的端到端的训练来完成这样一个业务上线。这个上线的效果使CTR和GMV的提升非常明显。

前面介绍了经典的比较标准化的深度学习在广告里面的应用,接下来我们的方向在互联网数据中,怎么样能够通过对用户行为的洞察做更好的深度学习模型。这里是一个例子,我们刚才讲到嵌入式技术,把每个商品通过嵌入式技术在嵌入空间表示一个点,一组特点用户的一系列行为通过嵌入技术表述成一个点,这个可能会代表用户。这个用户点跟商品做最后的兴趣度的计算,假设说这个计算就是跟距离成正比的话,用户的点会表示成这样一个兴趣函数在空间里面就会变成一个单峰函数,用户所处的点的地方的兴趣度最大,越远兴趣度越小。

实际上,我们用户的兴趣到底是不是一个单峰的?我们认为不是的。大家在双11有没有购物经验?是不是购物车里面加满很多不同类的商品,说明用户的兴趣是多样的,我们在非活动节点,在平时发现用户的兴趣也是多样的。用户的行为序列里面有大量不同的类目的子序列,用户在相互跳转。

基于这样一个洞察,我们提出了用户多峰兴趣分布的深度学习神经网络,我们希望去描述用户的多个兴趣,它使用的方法是子序列提取。我们在做CTR预估的时候都有一个侯选的商品,我们拿到一个侯选的商品要预估它的点击率的时候,用这个商品去反向提取它行为序列里面对所有预估有帮助的子序列,而不是用全部的序列。这样的话就能在包含很多子序列的复杂的序列里面,把相关的子序列提取出来,用这个相关的子序列形成表达,跟这个商品关联。多峰兴趣分布可以看作是任何一个商品去找到一个比较近的峰跟它计算兴趣度,大概是这样一个过程。

我们实际上采用的一种类似attention的技术达到相关的目的,也是在阿里妈妈的流量效果上使CTR、GMV显著的指标有明显的提升。用户在互联网上浏览各种物料的时候,背后的物料本质的理解非常重要,比如在电商环境下,用户浏览商品的时候,很多时候看到这个商品的图片来决定它到底怎么样进行下一步的行为。我们能不能把这些图片信息能够到深度神经网络来做更好的用户兴趣的建模?这样带来一个挑战,任何一个行为从商品的ID变成一个商品的图片,在样本里面数据量是增大非常多倍,一个ID可能用一个几byte的字节表示,如果变成一个图片,动辄几百K甚至几兆,这个数据量至少是上千倍的增长。互联网大规模的数据需要几十或者几百或者上千台机器并行训练,数据量爆膨几千倍,即使对于阿里巴巴这样的公司,这样的问题也是很难处理的。

这样的挑战怎么解决?我们分析了现在在互联网的深度学习建模里面经常用的分布方式叫参数服务器(Parameter Server),我的样本有一个worker遍历样本,需要参数的时候从server端取参数。能不能承担这样的计算?首先把图像存在样本中,爆膨几千倍不可接受。存在远端的sever图像进行去冗余的存储,存储可以解决,相关的图像传过来,数据量爆膨几千倍也不可接受。远端能不能不止存储参数图像,远端是不是加一个model解决?远端有图像有model,远端的model处理图像部分的子model,worker端是遍历样本的CTR主model,这两个model嫁接到一起,做一个端到端的训练。

刚才讲过,很重要的一个经验,只有端到端才work。这个图像特征在阿里妈妈内部很多团队尝试,把图像变成feature加入到CTR预估模型里面,如果CTR预估模型很强,这么加没有作用。我们做这么一个端到端的训练,提出新的模型分布的服务器,把参数分布方式变成模型分布方式,Server端不只有参数而且有子模型在计算,并且会和worker端主模型一起更新。这使得图像可以处理成一个向量再传输,几十倍、几百倍,整个传输量降下来,使得整个联合训练的过程变成可能。通过框架上的分布式的变化来完成这个挑战,在阿里妈妈的内部业务线上线,点击率或者商业平台的收益能力上有一个很显著的提升。

深度学习真正用在搜索推荐广告的检索系统里面,会遇见匹配问题或者检索问题。这样的一个流量端的业务一般来讲会分几个模块,来一个流量之后,一个流量背后通常代表某个用户某个场景下的浏览行为,先匹配,后面的预估模型对给定的商品做兴趣度的预估,点击率预估、转化率预估,通过预估后面有一些排序展示,广告还有出价,非广告的话没有出价环节。但我们不可能对大物料全库进行预估。

假设背后有一百亿物料,每个用户需要在线计算一百亿物料的点击率这是不可能的,前面的匹配模块需要缩减,缩减成几千、一万十万,使得在线可以承担这么多计算。流程里面前面的检索匹配环节是整个系统表现的上限,后面模型无论如何做得再精巧,前面匹配很弱的话,业务整体目标无法得到提升。

匹配方法可以分为三类。启发式统计规则,现在非常精巧,而且推荐里面用的非常多的一类协同过滤,两个商品看的多就相似,协同过滤怎么匹配?通过历史行为的宝贝的商品的相似商品匹配过来,这样的话很多人会遇到用这样的一个推荐虽然很容易实行个性化,对于非个性化的业务指标来讲会有很大的提升,会带来一个问题,用户经常看到跟历史行为相似的商品,这在很多推荐场景里面可能都有一些用户去抱怨的case。

一个很自然的提升匹配能力的想法是引入机器学习去衡量兴趣度,找到最好的商品。引入机器学习,全库的计算问题很难解决,所以我们在引入机器学习的时候有一个退化的方法,如果这个模型是一个内积模型,用户是一个向量点,所有的物料都可以表示向量点,内积模型最后变成KNN查找的问题。怎么查找最近邻?有向量检索引擎可以做。CTR里面经常有交叉特征,用户兴趣分布,还有很多高级的深度学习模式,都没办法在这里面使用。

我们针对怎么样用任意的深度学习来做全库的检索寻优,提出树结构的全库检索引擎,它的想法也比较直观,把整个商品建立成一棵层次化的树,有十亿产品,30层的二叉树,它的叶子层可以容纳20亿商品。我们的深度学习层每层扫描,每层找到最优,下层的节点在上一层非最优的孩子里面不继续计算,相当于丢弃,直到最后找到全库最优的,把10亿次的衡量变成30次从上到下的衡量,解决深度学习如何在全库找最优的问题,解决了检索和匹配的问题。这样的方法跟前两代方法比较,推荐召回率有非常明显的提升。

此外,我们限定只推荐用户没有行为过类目下的物料,用新类目召回率来做一个新颖性和召回率的综合评估。比第一代的协同过滤方法在这样的评估方式下将近提升了四倍多。这是技术上解决了如何用深度学习进行全库检索的问题。

未来的挑战,对于推荐或者广告的体验问题和数据缺失问题,机器学习需要label数据也就是目标数据,现在有的目标是已经产生的用户数据点击购买等等数据。我们能够对这些指标做最优化,很多体验问题我们没有Label很难优化,导致很难用机器学习去解这些问题。如何解决体验问题?用算法自动去推导背后的用户体验还是用人力标注,像搜索引擎用相关性团队去标注用户的感受还是通过交互让用户主动来反馈?这个是未来需要探索的问题。

推荐评估问题,不管是工业界、学术界经常用召回率来评估,实际上召回率只评估用户消费过商品的表现,如何评估新推荐商品对用户的激发效应,这在召回率评估上并没有体现。还有推荐的自循环问题,你感兴趣的东西你点的多,推荐下一步会推荐越来越多,最后丧失掉很多其它你可能感兴趣的其它推荐。

在很多APP上推荐场景有很多,多场景下如何来做协同?从商家视角,每个商家其实面向的都是全量的海量用户,如何探测潜在的客户。商家面对的是整个消费者的运营过程,潜在兴趣阶段、购买阶段整个链路上如何进行优化创新,这是面对商家在商业上希望能解决的问题。

阿里妈妈技术团队在深度学习上持续演进和创新。我们追求业务结果,希望在追求业务结果背后能够在技术上做一点不一样的事情,希望能够做一些业务的创新模式,如果有同学感兴趣的话欢迎联系我们。阿里妈妈携手天池承办的这一届阿里妈妈国际广告算法大赛,大家有兴趣欢迎来挑战。

点击 2019/20190426A/F0111230

了解更多阿里妈妈国际广告算法大赛详情。

淘宝搜索的本质定义是什么?

淘宝搜索的本质

淘宝为什么一次次修改搜索的计算方法,特别是还推出了千人千面,因为网络流量增长已经到了瓶颈期,加上其他平台的分流,如果要实现销售额的增长,那最好的方法就是把那些产品质量好,服务体验好,评价好,回头客占比高,受欢迎的宝贝优先推送在买家面前,可以说这就是淘宝搜索的本质。

千人千面就是系统给每个买家打上标签,给每个店铺也打上标签,当标签相匹配时你就获得优先展示的权重加成。得到系统认可度越高的店铺,将可以获得越多流量。

我认为理解淘宝搜索的本质是做好自然搜索和直通车推广的基础,所有的搜索优化和直通车优化都是围绕这个来开展的,都是为了讨好搜索引擎,向系统证明我们的宝贝是越来越受买家喜欢的。直通车和自然搜索是相通的,唯一不同的是一个是收费,一个是免费的。

直通车广告每天展现的总量是变化不大的,而对于淘宝来说只有广告被点击了才有收入,所以当然要优先展现那些点击率高的直通车宝贝,或者你的出价高到可以抵消点击率下降带来的损失,系统也不介意把你放在最前面。

近年淘宝为了让买家有更好的购物体验,更是加大了权重对排名和CPC的影响。建议你找个时间静下心来想想,如果你是淘宝,你是直通车,你会如何给买家们推荐宝贝,理解了这个,你就会明白怎样才能真正把直通车做好。

千人千面与精准流量

我一再强调精准流量,是因为如果访问和购买你家宝贝的都是同一个人群,比如年龄30-40,淘宝月消费1000元以上,4心-1黄钻,常常购买服饰等标签的这个人群,系统就会认为你的宝贝很适合这个人群,当有符合这些标签的人到淘宝搜索宝贝时,系统就会优先把你的宝贝推送给她。

如果你总是引入乱七八糟的流量,购买的人群每天都变动,系统也不知如何给你定位,最后你就无法从千人千面中受益,这也是很多人抱怨千人千面后根本没感受到人群更精准,转化更高的原因,因为是你自己与千人千面的初衷相背而行,总想着什么人都往店铺拉。

如果你再想不明白如何从千人千面中获得好处,可能很快一切都太晚了。所以一个店铺刚转变风格时总是要经历一段痛苦的时期,因为要等系统重新给店铺定位,老客户也大多离去;价格的一个重要作用就是把购买这个价位的人群集中起来,比如你一直卖50元上下的东西,突然换成卖200元的东西,是一定要经历一段长时间的迷茫和无奈的。

关键词的优先展现原则

一个买家搜索了某个关键词,如果你的计划里有多个关键词达到了系统要求的展现条件,那么系统会把与买家搜索的关键词完全一样的关键词优先展现,并展现包含该关键词的创意,然后其他关键词才能获得展现的机会。所以我一再强调推广新宝贝推广时,一定要关键词,宝贝标题和推广标题保持一致,这样初始权重才高,成长起来也快。

你可以搜一下双排扣毛呢大衣或者中长款毛呢大衣,排名前三的直通车宝贝一定可以在宝贝标题,推广标题或宝贝属性有二次甚至三次找到这些前缀词,只有极少数例外的钱多多不计成本地挤进了前三,但他绝对坚持不了太久。你应该去搜几个二级关键词,然后分析一下出现在第一页的直通车宝贝的标题和属性与你这些词的关系,你一定不会觉得是在浪费时间。

如果你在三个计划里添加了同样的三个关键词,但匹配方式不同,在出价也没差距太大的时候,精准匹配的那个将获得优先展现的机会,然后广泛匹配和中心匹配的词将根据质量分*出价选择其中一个展现。同一个关键词一个店铺最多展现二个宝贝。

以前还有个紧密排列优先展示的规则,后来系统把只是前后顺序不同,类似词都当作同一个词处理,就像蕾丝 雪纺衫和雪纺 蕾丝衫在系统看来是二个完全一样的词,这个规则基本就没存在的意义了。

主推词的一致性原则

比如一件毛衣,它的主关键词可以是针织衫,也可以是毛衣。那接下来我们想推广这个宝贝,应该如何加词呢?我的建议是,保持主推词的一致性,我们把这二个词放到流量解析里对比一下就可以看出,针织衫的展现指数和点击率都远高于毛衣,但毛衣的点击转化率略高手针织衫,这种情况我们肯定选针织衫为主推词。

这个一致性原则要求的就是前期加词,所有的词都围绕一个主关键词来加,比如只加针织衫这个词的扩展词,这样的话,你所加的这批词如果有哪个效果好,它会间接且稳定地提升所有带针织衫的关键词权重,当然效果不好的词我们要赶紧删除掉。又比如毛呢外套,也可以是毛呢大衣,呢子大衣,或呢子外套,至于哪个词最适合来主推,就需要你去分析对比了。

直通车和宝贝搜索权重

直通车的权重和宝贝搜索权重是二个互相独立的计算系统,之间是没有联系的,就是说你直通车效果好,并不会立马提升你自然搜索的权重,相反直通车效果不好,也不会降低自然搜索的权重。

但他们之间的影响又是存在的 ,直通车对搜索排名的影响主要有三个,一是直通车带来的销量,让你比不开直通车的同行累积销量更快更多,而销量是搜索权重中最重要的因素;二是点击过你直通车的人会被打上浏览过你店铺的标签,系统定义为店铺的潜在人群,在千人千面的影响下 ,她以后搜宝贝的时候,你的宝贝将凭此获得好处,并且在你直通车人群溢价和钻展定向自身的时候多了些可用的人群数量;三是直通车带来的流量和人气,可以提升整个店铺的权重,间接影响全店宝贝的权重。

搜索人群和精品创意

搜索人群里的那个相似店铺的访客有点类似钻展的店铺定向,就是去抢同行的客户,出多少溢价需要根据每个宝贝的效果来调整的。搜索人群的核心客户除第一行浏览未购买的访客不管外,其他的平时我一般都是30%-50%溢价这样设置的,大促时150%-200%溢价,就是锁定自己的用户群,别让对手轻易抢走。还有一个自定义人群,一般我只设置性别和年龄,消费金额不用区分,这个自定义人群溢价要比核心客户人群低一些。

精品创意我不知道你们的效果怎样,我只想说是个坑,消失的P4P活动。我现在只建普通创意。

降价法

降价法是大卖家和不缺钱最喜欢用的提升计划权重的快速方法。集中挑选一个相关性好的热词,然后出高价让它排在第一页前三名,因为这个位置展现多,点击率高,只要是提前测好的图,质量分会涨的很快。一般一天只投点击率最高的半个小时到二个小时,其他时间段调整到30%时间折扣且调整地域到冷地区。

第二天开始慢慢调低出价,虽然出价低了,但依然可以保持在前三名,随着权重的进一步提升,只需数天出价在1元以内就可以占据前三的位置,最后添加这个热词的扩展词,基本都是9分10分且权重很高,这就是降价法的基本原理,当然也是所有直通车降低CPC的操作思路。降价法经验不足者请勿轻易尝试,或许一个月就白干了。比如前期你每天花费几百元引来几十个点击,但因为选款选图选词任何一个出错,你的几千元投入将只是打了个水漂。如果资金有限,可以尝试下升价法。

升价法

既然有降价法,自然也有升价法,就是一开始筛选出来几个展现指数高的关键词先出一个较低的价格,当然也不能过低,最好排名在50名左右,控制好地域和时间折扣。不管是降价法还是升价法,图片的点击率都是重中之重,产品不好点击率不高,怎么玩怎么死。因为点击率高,质量得分会慢慢起来,之后你开始提高出价,但CPC基本不变,排名却越来越靠前。最终靠着高权重,也许出价0.5元实际CPC0.3元内就可以占据该词前三名的位置,升价法的操作原理很简单,但执行起来却非易事。

升价法如果操作的不好就会恶性循环,出价低导致位置不好,展现少点击少,质量得分降低,CPC升高,你就会考虑降低出价来降CPC,然后展现更少,从此坠入无尽深渊。这二种方法仅适用于点击率转化率都高的产品,且要求车手有足够的经验和判断力。这里说的升价法是不是和直通车2里提到的第二种方法很像,原理都是差不多的,只是升价法投放的关键词更少,投放的地域和时间段更少,质量得分提升的更快些,对车手的个人经验要求的也更多。到这里,我已经提到了五种提升计划权重的方法,总会有不适合你的,总会有适合你的。

无线直通车

由于移动端直通车展现的位置特殊导致点击率一般要比PC端高好几倍,你可以在实时数据查看当天的移动端投放情况,或在下图位置查看历史投放数据。不要看到某个计划的点击率这么高,怎么质量得分还是起不来,先去看下点击率是不是靠移动端拉起来的,再看下PC端的实际点击率。注意,这个总的点击率不是简单的按占比相加,具体应该是把移动端的点击率打个折再来和PC端合并的。

移动端因为输入文字的方式和键盘有很大不同,导致和PC所投的关键词也有较大的不同,可以在流量解析数据透视这里查看每个关键词在PC端和移动端的展现指数,点击率,占比等数据,也是判断这个词属不属于移动端的主要方法。移动端和PC端的权重计算方式也不同,我们目前只能看到PC的关键词质量得分,但可以根据移动搜索首页预估出价来判断移动端下该词的质量得分:

从上边左图可以看出PC端要出到3元左右才能在第一页,而移动端只需要1.41元就可以出现在首屏,说明无线端的权重比PC端还要高,如果PC端质量得分是8分,那无线端估计是9分,10分了;右边那个就相反了,PC端第一名只要2.14元,移动端展现在首屏需要6.12元,如果PC端是8分,估计移动端只有6分左右。

我们当然不可能每个词都这样去查看,主要是查看一下实际CPC比PC端出价低很多或高出很多且点击量大的词,分析一下是加大推广还是降低出价。据说现在移动端扣费是打了3折的,大家可以看到移动端目前比PC端便宜不少,但这个优惠也许哪天就没有了。因为手机网络普遍较差,买家体验不太好,如果单独投放移动端,尽量优先投放那些WIFI覆盖率高的大城市,或者根据之前的直通车移动端数据筛选城市。

寻找飙升热词

一般来说关键词主要分二种,一种是系统已知且搜索量稳定的;还是有一种是近期买家搜索量大增被系统抓取出来的,这种词我们称之为飙升词。那我们如何找到这第二种词呢,一个优秀的直通车手,应该养成至少每三天看一遍:

1.首页下拉框,

2.首页搜索框下方的推荐词,

3.淘宝排行榜的一周关注热门中的完整榜单,

4.淘宝指数飙升词排行榜,

5.数据魔方行业热词榜中的热搜飙升傍,

6.直通车后台的增幅或降幅最大报告,

7.生意参谋专题工具>行业排行>热搜词榜下方的搜索涨幅top100等容易发掘飙升热词的地方,当然也不用每个地方都看,选二三个定时查看就好。

这些词一般都是季节变化,影视作品,系统推荐词更换等原因产生的,如果能最早发现这些词,因为知道的人少,加入直通车基本直接就是9分10分,很低的 CPC就能抢占第一页,从而带来大量低价流量。等到别人后知后觉的时候你已稳住权重,要把你从第一页挤出来就要付出点代价了。一个人的精力是有限的,我们需要互相交流技术,共享新发现,所以电商很容易形成一个个圈子。

把这些新发现的词及时加到宝贝标题中去,结局一定很美。当然,任何一个新发现的词都要放到流量解析里分析一下,看它的趋势,点击率,点击率转化率以及最重要的竞争度等才能断定词的好坏。

摆脱竞争对手

常常听到中小类目的朋友诉苦说自己的直通车又被同行恶意点击,或者好不容易想出来的好创意没几天就被全抄去了。其实你只要利用好地域设置,是可以摆脱难缠的竞争对手的。比如你是做灯饰的,都知道广东中山强,或者像四件套,已经被江苏南通全占领了,不管你是不是在这些地区,你的直通车不要投竞争对手密集的城市和那些常常恶意点击你直通车的城市,少投几个城市不会对你的销售有多大影响,相反却可以隐藏在竞争对手后面,让他们找不到你。如果需要查询自己的排名和展现效果,也应该在需要的时候才加上自己的城市,查询完要尽快移除所在城市。

难道又要去找各种数据来分析自己的竞争对手都在哪里?不需要这么麻烦,直接在淘宝搜关键词,比如搜电钻,按销量排序,浙江金华已抢去了90%以上的市场,其次是江苏的几个城市。显然,如果你是电钻的卖家,这几个城市是需要避开的。

降低CPC

很多人可能更关心如何降低CPC,如果你看完了直通车三部曲还没弄明白超低CPC是怎么来的,不是我写的太差,就是你应该向老板申请去仓库打包算了。测试好款和图片,优化好标题,选好关键词,把权重拉起来,CPC自然就下来了,保持点击率(使用博宇优化,过滤不会超过5%)和转化率高过同行,长期投放,权重必定越来越高,CPC最终可以降到最低。

直通车有养词的说法,那你弄明白养词的真正含义么?一方面是通过操作把词的权重拉起来,更重要的一方面是让这个词拥有一个好的历史记录,等到竞争变大的时候,你的权重已遥遥领先,你就可以一直处于优势。虽然现在才12月初,但有些卖家早已把春装上架了,他们这时候把带有春,春季,春装等的关键词先培养着,而你可能元旦后才上新,这时候人家已经比你多一个多月的时候来提升关键词的权重,也多一个月的时候筛选出合适的词,等年后春装旺季来临时,人家3毛4毛钱就可以轻松进第一页,如果你那时候才匆匆忙忙地推,3元4元都未必进得了第一页。

降低CPC真的没有什么技巧秘诀,就是降价法的普及版,就算你走偏门几天就把CPC拉下来,但升回去也就一二天的事。如果你老是想着从网上找各种攻略技巧,或参加乱七八糟的培训,甚至拜各种大神,你只是在浪费时间。特别是去崇拜所谓的大神(使用博宇优化这个软件,你也能成为大神),如果你有他那产品和团队支持,相信我,你做出来的数据不一定会比他差。很多让人惊掉下巴的数据是怎么来的,谁知道呢,要是那些大神敢把关键词和点击转化率都截图出来,有时候你会惊讶地发现热词的转化率竟然是长尾精准词的几倍甚至十几倍,你就会明白这些人大多数都只是来搞笑的。

其实对大家来说最难的是如何保持点击率和转化率一直高过同行,这个真的就需要合适的产品和整个团队的努力了。如果你努力了仍然无法做到低CPC,只是因为你的产品和店铺做不到那种程度,不一定是你的问题。尽力了就好,直通车最终的效果与车手的个人能力真的关系不大。

直通车与ROI

直通车的效果不能单纯的从花了多少推广费,全店卖了多少来看的,我倒是建议把直通车的投入产出与全店的分开评估。你要这样想,我们不投直通车,这些人工,租金,各种税,库存等成本依然存在的,并不会减少;如果我们开直通车,直通车每赚到1元,那就是实实在在赚到的。

我们分析直通车实际效果时可能会考虑到退款率,但你也要想一下,你店铺的回头客占比是多少,比如你退款率是15%,但老客户一年销售占比在30%,那直通车的实际ROI还要高15%;有些商品,很多买家都是要思考很久才决定是否购买的,或许可能要攒一二个月的工资,而这早就过了直通车报表能统计到的15天回报率;不是每个人都喜欢登陆淘宝账号来收藏和放购物车的,有一部分人喜欢直接放到浏览器收藏夹或复制发送给别的账号购买的,这些都是后台统计不到的;如果质量好,通过直通车购买的客户之间互相分享也会带来一部分隐性订单等,这些确实存在的情况都告诉我们直通车实际ROI比我们看到的要高不少,不能简单地判断直通车是不是在浪费钱。

而且直通车带来的销量,会提升你的自然排名和给买家更多的信心;直通车带来的人群会提升你的潜在客户数量,在钻展投放和搜索千人千面前都有积极的效果,这些带来的实际效益很难统计;不要只看到后台的直通车ROI,每天拿个小本子计算着又亏了多少钱,这样的话你的店铺永远做不大。看到这里,可能你们要怀疑我是不是那种直通车投20万成交3单的坑神了,这倒不是,虽然我无法像别人那样做到高不可及,但做个2.5或3以上,偶尔4或5以上,并不是多难的事(女装,常规款,无名品牌,客单价200元左右)。

直通车这个系统太庞大了,我不可能把每细节都写下来的,比如利用直通车测款测图推爆款,定向推广,店铺推广等,我也不可能把新计划哪天哪个小时该做什么都写的非常详细,因为不同类目差别本来就大,更重要的其实有很多东西我自己也还没搞明白。我更希望的是让你明白其中的原理和给你提供思路,让你明白原来直通车是这样玩的。

——————————————————————————————————-

《电商一站式教练班》5月课程开课啦!

2016电商瞬息万变

您是否跟上了节奏

把握先机掌握最新打法

抱团成长抢先跟上变化

教练班9大核心爆点

教授》解惑》答疑》行动》见效

站在顶端才能成竹在心

让我们一起笑看变化!!!

课程时间:5月12日 – 5月15

本期地点:广州

课堂全场实操落地,请务必携带笔记本电脑。

不实干不落地的电商培训请记住都是耍流氓!

课程保障:

课上当场完成9大核心爆点作业+免费复训一年+跟踪指导一年+爆款SEO俱乐部入会资格(进入爆款核心圈和各类目顶尖大佬直接沟通)

费用29800/两人(老板+运营)

强调!这不仅是一次课程!课后免费复训一年(每月都有课程可报名复训)+跟踪指导一年+SEO俱乐部入会资格,29800让您用足一整年!

此课程保证商家学员课堂落地效果,实行报名限额,款到留位

5月班目前仅剩少量名额,错过这期再等一个月,30天什么都有可能发生。

报名联系人微信号:jpxvip

覆盖20个国家 10万华人 搜轻松要做全球综合服务搜索平台

【猎云网(微信:)武汉】6月8日报道(文/曹梦晖)

烈日炎炎,嘉年华门口排队换票的队伍拉了十几米长,孩子哭闹着不愿意排队,这时候有个帮手就好了;去国外玩,人生地不熟,想开心地玩却又顾虑被宰,这时候有个当地朋友就好了;看中了一套日本化妆品,国内专柜太贵,这时候有一个靠谱代购就好了……以上的这些顾虑,搜轻松或许可以帮你解决。

搜轻松是一个综合服务搜索平台,通过平台可以搜索到数千种服务,找到帮手为你解决问题。但是目前搜轻松的业务主要在海外,覆盖了中国、澳大利亚、日本、韩国、泰国、新加坡、法国、瑞士等20个国家。

创始人张淞亚告诉猎云网(微信:ilieyun),第一个版本其实名为“Relax自由行”,有找导游、导购、推荐美食、推荐住宿、代排队、自定义等品类,是一个海外服务平台,帮助海外出行的华人随时找到当地华人帮手。在运营的过程中拓展品类,加入了当地生活和企业服务,才逐渐形成了现在的搜轻松,包括行前计划、出行服务、突发状况、本地生活、创业服务、举办活动六个大类。

搜轻松采用帮手抢单的模式。用户选择需要的服务类别,回答至少6个问题完善需求,提出悬赏金,平台会根据用户选择的地点发布给当地的帮手。帮手在平台上兑换R币,1R币等于人民币5元,帮手需要根据订单价值的不同支付平台相应的抢单费用,一般情况下为1至2R币。抢单最快的5位会推荐给用户,用户与帮手沟通之后,选择合适的帮手。订单完成之后所有的悬赏金都支付给帮手,平台不抽取佣金。

平台的盈利模式是收取帮手的抢单费,只要订单完成,会收取5个人的抢单费。对此创始人张淞亚解释道,平台的思路是为服务方介绍新客户,只要与客户沟通过就是一次成功的展示,这种获客方式比类似百度热词点击要更精准,即使没有成功服务也发掘到了潜在客户,因此都会收取相应费用。平台每月R币收入在5万至10万左右。

目前搜轻松平台注册用户近10万,每天有1000多个新用户,每天发布的需求有100多单,客单价在200元至500元。帮手可以是个人和中小企业,后期会开放企业用户,注册企业账户之后员工共享R币账号,共同完成任务获取悬赏金。

平台对于帮手的申请没有限制,会进行相应的审核。首先是基本信息,对帮手填写的你年龄、地址和联系方式等进行确认,其次如果是海外帮手需要上传护照和签证页,证明自己在海外合法居住,如果是国内帮手则需要上传身份证。根据服务类别有相应的分级,对于不需要门槛的初级服务所有的帮手都可以接,需要专业技能的服务则要求提供相关的资质证明,包括合格证和等级证书等。

注册一个账号,可以同时是发布需求的用户、帮手、代言人、城市合伙人多重身份。代言人是搜轻松的用户邀请和激励机制,申请之后会生成带有个人二维码的海报,可以分享到任何一个社交平台,如果有用户通过分享注册了搜轻松,就会有小额的邀请奖励,如果产生订单,再继续奖励。如果认识很多帮手可以申请城市合伙人,通过线下联系客服人员申请,客服升级账号之后邀请帮手会有更多的奖励金。

以上是平台在线上的模式,坐拥海外人力资源,搜轻松在线下是企业跨境服务一站式提供商,承接地推、本地化推广、海外广告代理、海外信息收集、海外信息对接、高端商务考察等服务,目前的主要合作方是携程。携程将海外推广需求发给平台,平台为其提供当地可服务人员名单,敲定之后把人找到,进行地推,并负责代付薪资,开增值税发票和监控活动进程。

共享经济让闲置资源开始流动,人力资源也不例外。观察到了这一点,本地生活服务搜索平台开始兴起。行业内的创业公司有猎云网(微信:ilieyun)曾报道过的基于LBS定位的本地生活服务搜索预订平台“小跑生活”,专注搬家、家政、回收、维修四项业务;聚焦三、四线城市,开展帮忙、家政和车辆服务的“街活”;而搜轻松选择深耕海外本地服务市场,为用户提供全领域生活服务。

搜轻松创始人兼CEO张淞亚毕业于悉尼大学机械电子工程学士、项目管理硕士,连续创业者,曾创立Yummy Australia、YumCircle,拥有多年世界500强外企和国企管理工作经验,受“在行”专访报道,被评为“超级学员”“最会问问题的人”,曾接受CCTV《超越》栏目特约专访。技术总监曹庭汉有6年技术背景、3年后端研发、2年技术管理经验,擅长数据分析与可视化工作,精于利用爬虫抓取大量数据并对数据进行挖掘分析,有丰富的系统后端开发、系统架构、服务器运维和技术团队管理经验。

搜轻松曾在爱创业平台做过一轮众筹,招募城市合伙人投资入股。目前正在寻求天使轮融资,计划出让10%股份融资300万。

项目:搜轻松

公司:人生菜单(北京)科技有限公司

网址:

本文来自猎云网,如若转载,请注明出处:http://www.lieyunwang.com/archives/321289

如何在谷歌搜索中 排除异己 专门找到你想要的做到精准定位查询

如何在谷歌搜索中排出闲杂网站,专门找到你想查询的网址,做到精准定位查询呢?今天猫熊哥个大家介绍一些谷歌高级查询的技巧:

我们在谷歌查找客户的公司网址,或者某公司,某产品时,经常在搜索结果页中出现我们不想要的内容。

如果想排出这些我们不想要的搜索结果,我们在谷歌搜索时可以加入下面的特殊单词作为搜索修饰语,从而可以达到“排除异己”,去其糟粕取其精华。

1.Inurl: /all inurl: URL 关键词限制搜索,将搜索结果限制在URL包含一个或多个搜索词的文档中。 搜索文件路径中包含关键词的网页:

比如,你想搜索网址域名中包含 LEDLIGHT 的网站,你可以在搜索框中输入

INURL: LETLIGHT .结果搜索出来的几乎都是LETLIGHT 的网站如下图:

2.INTITLE:/allintitle: 标题关键词限制搜索,将搜索结果限制在页面标题含有一个或多个搜索关键词的页面:

如你想查找页面标题含有 import toy from China 的网站,你可以这样在搜索框中输入: intitle: import toy from China, 结果如下图,搜索的全是TOY importer

好了,以下的方法类似,猫熊哥就不一一做示范了,

3.Intext: 正文关键词限制搜索;将搜索结果页限制在页面正文中包含一个或多个搜索词的文档。 比如你想搜索正文中也就是网页中包含 auto parts 的网页,你就可以这样搜索: Intext: auto parts.

4.ext:/filetype: 文件类型限制搜索;将搜索结果限制在特定文件类型。比如很多公司为了在网上宣传自己的公司,在网上发布了很多公司产品的PDF文件,你可以通搜索 产品关键词加上 EXT: PDF 或者filetye: PDF 来说搜索。

比如:你是电梯配件出口商,你想搜索电梯公司,你可以这样搜索电梯公司:

你在搜索框中输入:filetype: PDF “elevator”

结果如下图:

如果能够灵活运用这些搜索技巧,会大大提高你的搜索精准性和定位性,提高查询效果和效率。

好了,今天就讲到这里!就到这里!

詹姆斯转会消息 抢戏 世界杯 搜狗英文搜索为你带来外媒最新报道

入夏以来,火热的世界杯开启了霸屏模式。然而最近几天,NBA夏季球员签约的新闻却抢了世界杯的头条,尤其是勒布朗·詹姆斯以4年1.54亿美元的合同签约湖人的消息一出,即刻地震般迅速引爆各大社交平台。作为长年率队称霸东部联盟、连续八年打进总决赛的联盟第一人,詹姆斯为何突然转会巨星扎堆、已陷入白热化竞争的西部联盟,而且加盟的还是弱旅湖人队?这次签约,将给下赛季整个联盟的格局带来怎样的影响?如果围观国内各路媒体的报道后依然不过瘾,小编推荐你使用搜狗英文搜索,无时差获取美国当地媒体的丰富内容,获取独特的解读视角。

搜狗英文搜索是搜狗推出的全球首个跨语言搜索引擎,可帮助国人跨越语言壁垒无障碍搜索全世界。在这一搜索“神器”中,无论检索中文或英文关键词,系统皆可提供海量优质的英文网页信息,并以英文原文、中文译文、中英互译三个页面呈现,一键切换即可选择阅读,点开每篇文章,也有中文和英文两个可自由切换的页面。在翻译效果方面,搜狗英文搜索应用了搜狗自主研发的搜狗机器翻译系统,翻译精准度已达到行业领先水平,让英语能力有限的用户也能畅读英文世界。

球迷如想了解美国当地媒体对于詹姆斯交易事件的分析报道,只需直接检索“詹姆斯转会湖人”或其他相关关键词,即可获取包括美国全国性对开日报USA Today、洛杉矶当地媒体Los Angeles Times、美国知名娱乐与体育网站ESPN、世界著名体育杂志《体育画报》、雅虎体育等权威媒体在内的大量报道。

  (图:搜狗英文搜索提供的三个搜索结果页面)

我们先来通过搜狗英文搜索浏览下美国当地媒体对詹姆斯转会原因的解读。

USA Today专门采访了两位了解此次交易谈判的知情人士,他们爆料詹姆斯之所以会选择加盟湖人队,主要源于三方面考虑:第一,詹姆斯和他的家人喜欢洛杉矶这座城市,他们在那里有两所房子,每年休赛期都在洛杉矶度过。第二,詹姆斯认为湖人队很有潜力,现有球员可以组建一支能够很快争夺总冠军的球队。第三,如果詹姆斯离开骑士,他必然会前往一支历史底蕴深厚的球队,湖人赢得过16个总冠军,名人堂球员也是不计其数。詹姆斯在做决定时,还专门和科比进行了电话沟通。

然而,Los Angeles Times、《体育画报》等媒体认为詹姆斯选择将洛杉矶作为职业生涯第三站还有更深的用意。Los Angeles Times分析,“(洛杉矶)是好莱坞和娱乐圈的所在地,勒布朗正穿越到那里。”《体育画报》也认为,詹姆斯加盟湖人“完全是生意上的事情,比篮球更重要”。报道指出,“作为一名湖人队员,詹姆斯将把大部分时间花在娱乐中心——一个他为赛后职业生涯定位时有更多‘追求’的竞技场。”

那么,詹姆斯加盟湖人这桩堪称今夏最重磅的签约事件,将会对接下来的NBA新赛季带来怎样的影响?

搜狗英文搜索提供的搜索结果显示,ESPN的一篇报道分析,从东西部联盟格局来看,凯尔特人、费城76人等东部新晋强队将会直接受益。詹姆斯转战西部将使东部联盟处于权力真空和群龙无首状态,他们终于有机会去争夺东部联盟的王冠了。不好的地方则是,联盟西强东弱的局势将会因为詹姆斯的“西游”而进一步拉大。

刚刚得到了一位史上前十级别超级巨星的湖人队无疑是今夏球员交易市场最大的赢家。雅虎体育分析,今年的湖人队,如果没有莱昂纳德这样的明星加盟,(只靠詹姆斯一个人)很难击败勇士队,但已足以让这支上赛季只取得35场胜利的球队迈入季后赛行列,甚至成为夺冠大热门。除了球队实力上的补强之外,詹姆斯的加盟还能推动球队收入大幅提升。ESPN的资深记者伊恩·贝格利报道,一支NBA球队的老板层,近期请了数据公司做了专门分析后得出结论:勒布朗新赛季的工资大概是3500万美元,但他无论加盟哪支球队,都至少能给球队带来6500万美元的收入,在天使之城洛杉矶,这个数字将被无限放大。

体育是个诞生奇迹的地方,NBA的宣传口号就是“奇迹正在发生”(Where Amazing Happens),相信随着新赛季的开启,还有更多意想不到的大事件发生。如想你想要见证这些历史时刻,第一时间获知NBA领域的各类爆炸性新闻,可继续锁定搜狗英文搜索。

除了体育方面的信息,通过搜狗英文搜索,你还可以直接获取科技、政经、时尚、购物等方方面面的信息。搜狗英文搜索在首页更是设置了热点资讯、即时知识、精致美图、英文网站导航等优质海外信息及内容渠道版块,可助你实时浏览当前全球最新最in的各领域信息或知识。快打开搜狗英文搜索,与全球最前沿的资讯建立连接吧!

在线AI技术在搜索与推荐场景的应用

12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)成功在线举办。在本次分享中,来自阿里巴巴集团的研究员徐盈辉带了题为《在线AI技术在搜索与推荐场景的应用》的精彩演讲,他结合本届双11搜索和推荐场景详细介绍了电商搜索推荐的技术演变、阿里搜索推荐的新技术体系以及未来的发展方向。

以下内容根据在线分享和幻灯片整理而成。

电商搜索推荐技术演变过程

对于阿里巴巴电子商务平台而言,它涉及到了买家、卖家和平台三方的利益,因此必须最大化提升消费者体验;最大化提升卖家和平台的收益。在消费者权益中,涉及到了一些人工智能可以发力的课题,如购物券和红包的发放,根据用户的购物意图合理地控制发放速率和中奖概率,更好地刺激消费和提升购物体验;对于搜索,人工智能主要用于流量的精细化匹配以及在给定需求下实现最佳的人货匹配,以实现购物路径效率最大化。经过几年的努力,阿里研发了一套基于个性化技术的动态市场划分/匹配技术。

电商搜索和推荐的智能化演进路程可以划分为四个阶段:人工运营和非智能时代、机器学习时代、准人工智能时代、人工智能时代。人工运营和非智能时代,主要靠领域知识人工专业运营,平台的流量投放策略是基于简单的相关性+商品轮播;在机器学习时代,利用积累的大数据分析用户购物意图,最大化消费者在整个链路中可能感兴趣的商品;准人工智能时代,将大数据处理能力从批量处理升级到实时在线处理,有效地消除流量投放时的误区,有效地提高平台流量的探索能力;人工智能时代,平台不仅具有极强的学习能力,也需要具备一定的决策能力,真正地实现流量智能投放。

智能化时代,对于搜索和推荐而言,可以提炼为两点:学习能力和决策能力。学习能力意味着搜索体系会学习、推荐平台具有很强的建模能力以及能够索引原始数据到索引知识提升,学习能力更多是捕捉样本特征空间与目标的相关性,最大化历史数据的效率。决策能力经历了从LTR到MAB再到CMAB再到DRL的演变过程,使得平台具备了学习能力和决策能力,形成了智能化体系。

借他山之石以攻玉

借他山之石以攻玉。在线服务体系中,我们基于参数服务器构建了基于流式引擎的Training体系,该体系消费实时数据,进行Online Training;On Training的起点是基于离线的Batch Training进行Pre-train和Fine Tuning;然后基于实时的流式数据进行Retraining;最终,实现模型捕捉实时数据的效果。

上图是基于Wide & Deep Learning for Recommender Systems的工作建立的Large Scale Sparse&Dense DNN训练体系的架构,该架构中利用Batch Learning进行Pre-Train,再加上Online数据的Retrain&fine Tuning。模型在双11当天完成一天五百万次的模型更新,这些模型会实时输送到在线服务引擎,完成Online的Prediction。

Streaming FTRL stacking@offline GBDT的基本理念是通过离线的训练,在批量数据上建立GBDT的模型;在线的数据通过GBDT的预测,找到相应的叶子节点作为特征的输入,每一个特征的重要性由online training FTRL进行实时调整。

双11当天的成交额是是普通成交日的十到十二倍,点击量将近三十倍。在用户行为密集发生的情况下,有理由相信数据分布在一天内发生了显著的变化,基于这样的考虑,GBDT的Training由原来的日级别升级到小时级别(每小时进行GBDT Training),这些Training的模型部署到Streaming的计算体系中,对于实时引入的训练样本做实时的预测来生成对应的中间节点,这些中间节点和人工的特征一起送入FTRL决出相应特征的重要性。

Online Learning和Batch Learning有很大的区别,在Online Learning的研发过程中,总结了一些技巧:

实时streaming样本分布不均匀时,由于线上环境比较复杂,不同来源的日志qps和延迟都不同,造成不同时间段样本分布不一样,甚至在短时间段内样本分布异常。比如整体一天下来正负例1:9,如果某类日志延迟了,短时间可能全是负例,或者全是正例,很容易导致特征超出正常值范围。对应的解决方案是提出了一些 Pairwise sampling:曝光日志到了后不立即产出负样本,而是等点击到了后找到关联的曝光,然后把正负样本一起产出,这样的话就能保证正负样本总是1:9;成交样本缓存起来,正样本发放混到曝光点击中,慢慢将Training信号发放到样本空间中。

异步sgd更新造成模型不稳定时,由于训练过程采用的是异步SGD计算逻辑,其更新会导致模型不稳定,例如某些权重在更新时会超出预定范围。对应的解决方案是采用mini batch,一批样本梯度累加到一起,更新一次;同时将学习率设置小一点,不同类型特征有不同的学习率,稠密特征学习率小,稀疏特征学习率大一些;此外,对每个特征每次更新量上下限进行限制保护。

预测时,在参数服务器中进行Model Pulling,通过采用合理的Model smooth和Model moving average策略来保证模型的稳定性。

智能化体系中的决策环节

电商平台下的大数据是源自于平台的投放策略和商家的行业活动,这些数据的背后存在很强Bias信息。所有的学习手段都是通过日志数据发现样本空间的特征和目标之间的相关性;进而生成模型;之后利用模型预测线上的点击率或转化率,由于预测模型用于未来流量投放中,因此两者之间存在一定的时间滞后(systematic bias),也就观测到的数据和实际失效的数据存在着Gap。在工作逻辑中,如果一个特征和目标存在很强的Correlation,则该特征就应该在线上的预测中起到重要作用。

在整个体系中,Systematic Bias很难做到理想化的控制,而且离线模型预期效果与线上的实际生效效果存在差异,这背后的根本原因是Correlation并不等于Causation,也就是特征与目标相关并不意味着特征出现一定导致目标发生。

那么怎么解决Offline Reward Signal不等于Online Dashboard Metrics的问题呢?我们引入了强化学习,通过引入Online User Feedback更好地定义Reward,对线上排序策略进行调整,使其具有更强的自适应性。

搜索/推荐引擎决策体系

搜索引擎和投放页面天然存在互动:搜索引擎观测消费者的交互状态;搜索引擎根据交互状态执行投放策略;投放策略之后,呈现商品结果页,消费者在商品结果页中的操作行为反馈给搜索引擎。引擎决策实际上能改变投放环境,进而影响消费者的交互,改变消费者的状态。如果不需要建立从状态到动作的策略映射,可以采用Multi-armed Bandits方法进行流量探索;如果需要建立该映射时,需要采用Contextual MAB方法;在新状态下,考虑消费者的滞后Feedback对于引擎在之前状态下的Action正确与否产生影响,需要引入强化学习的思想。

搜索和推荐过程可以抽象成一个序列决策问题,从消费者与引擎的交互过程中寻找每一个不同状态下的最优排序策略(各种排序因子的合理组合)。

我们的目标是希望搜索引擎决策体系进化为具有强化学习能力的智能化平台。过去的搜索,我们只能做到遇到同样的用户购物诉求下,尽可能保证做得不必以前最好的方法差,也就是所谓的Historical Signal==Best Strategy;一切模型都是建立在优化直接收益的基础上。未来的搜索,我们希望能够保证长期收益最大化来决定引擎的排序策略,也就是Immediate Reward+Future Expectation=Best Strategy;未来的排序融合入模式都是建立在优化马尔科夫决策过的基础上,最大化The Discounted Reward。

基于强化学习的实时搜索排序调控

下面简要介绍下为应对今年双11提出的基于强化学习的实时搜索排序调控算法。

对于强化学习,它的目标是最大化时刻T所选择的策略的长期收益最大。对于离散state和离散Action的情况,可以采用Tabular RL方法求解;对于连续State和连续Action,采用RL with Function Approximation。其中State表示用户近期发生行为商品的可量化特征,Action表示权重量化(维度是排序特征分),Reward是Systematic Valid User Feedback。

双11采用Q-learning的方式进行实时策略排序的学习,将状态值函数从状态和策略空间将其参数化,映射到状态值函数的参数空间中,在参数空间中利用Policies Gradient进行求解;将状态值函数Q拆解成状态值函数V(s)和优势函数A(s,a)进行表达。

其算法逻辑如上图所示,基本算法是实现线上几十个排序分的有效组合,样本包括日志搜集到的状态空间、Action Space(这里对应的是排序分空间),奖赏是用户有效的Feedback,具体的排序策略表达公式以及策略更新和值函数更新的公式可以参考Maei,HR的《Toward off-policy learning control with function approximation》一文。

在双11采用的基于强化学习的实时搜索排序调控的实现体系如上图所示。当用户输入query时,会向系统询问哪一种排序策略最适合自己;该查询策略请求会上传至在线策略决策引擎,在线策略决策引擎通过实时学习的Q(s,a)模型合理选择有效策略,然后再返回给搜索引擎;搜索引擎依据当前状态下最有效策略执行搜索排序;在搜索排序页面展示的同时,系统会及时搜集相应的状态 action以及用户feedback的信号,并进入到Online Training Process;而Online Training Process会通过Off-policy model-free RL方法学习State To Action的映射关系,再从映射关系中得到线上排序所需要的策略参数;该策略参数由在线策略决策引擎通过Policy Invalid Process输出给在线搜索引擎

总结

整体搜索/推荐希望建立一个Close-loop for iCube learning体系,其中iCube要求系统具备immediate、interactive、intelligent的能力。整体从日志搜集到maximize rewards、minimize dynamic regret实现Online Training;其中Training模块能够高效地部署到Online Service;而Online Service必须具有很强的探索和overcome bias能力,进而使得整个体系能够适应新的数据,提升流量投放效率,同时能够探索新奇和未知的空间。

在AI应用到商业的过程中,未来努力方向是:

From batch to streaming,希望从historical batch learning转化为life long learning;

整个学习体系由tailor for tasks 向利用transfer learning实现不同渠道、应用下学习模型的复用转变;

Training process 从Blackbox转变为实现合理的knowledge representation,实现线上投放逻辑的controlled&comprehensible;

学习体系随着强化学习和在线决策能力的增强,从local optimization向global evolving转变。

大会所有资源(视频回放、PDF、文章整理)一键下载:https://yq.aliyun.com/articles/65238

大会系列整理文章:

阿里双11背后的网络自动化技术——张铭(阿里巴巴研究员)

演讲整理文章:https://yq.aliyun.com/articles/64680

阿里大规模数据计算与处理平台——林伟(阿里巴巴资深技术专家)

演讲整理文章:https://yq.aliyun.com/articles/66113

在线AI技术在搜索与推荐场景的应用——徐盈辉(阿里巴巴研究员)

演讲整理文章:https://yq.aliyun.com/articles/66158

揭秘阿里虚拟互动实验室——袁岳峰(阿里巴巴高级技术专家)

演讲整理文章:https://yq.aliyun.com/articles/66105

阿里超大规模Docker化之路——林昊(阿里巴巴研究员)

演讲整理文章:https://yq.aliyun.com/articles/65377

双11媒体大屏背后的数据技术和产品——罗金鹏(阿里巴巴高级技术专家)

演讲整理文章:https://yq.aliyun.com/articles/66098

数据赋能商家背后的AI技术——魏虎(阿里巴巴资深技术专家)

演讲整理文章:https://yq.aliyun.com/articles/66159

面对双11的前端“极限挑战”——舒文亮(阿里巴巴高级技术专家)

演讲整理文章:https://yq.aliyun.com/articles/66106

创业邦携手阿里云推出创业四重礼,包括1-3万免费云资源、35+产品6个月免费等福利>>2019/20190426A/F0111053

共你饭清真搜索功能正式开通 地域分类 关键词搜索 清真一网打尽

↑点上面蓝色小字丨关注共你饭清真欢迎转载,但请注明出处!

搜索功能来啦,

搜索功能来啦,

搜索功能来啦!

重要的事情说三遍!

在无数关爱共你饭的小伙伴的建议和敦促下,共你饭搭建了第三方平台,并将以往所有内容分类填充进该平台(之后也会持续更新),同时,开发了平台内的搜索功能。从此,想找自己需要的清真美食或餐厅信息,再也不用在历史消息里一直翻一直翻啦!(对于下伙伴们以往所受的苦,共你饭君表示深深的歉意)

地域分类明晰,关键词搜索精准,一句话,共你饭在手,天下我走~

接下来,简单给大家介绍下,如何使用~

使用指南:

1、进入“共你饭清真”微信公众平台,找到菜单栏中的“找清真”,点击进入;

2、进入后,会看到35个地域标,想找哪个地方就点哪个地方;(本君以北京为例,点击“北京”进入下一个页面;)

3、进入后,可以看到所有有关北京清真美食的信息;

4、在这个页面,大家会看到有一个搜索框,在该框内,你可以输入任何关键词,只要平台内有的内容,都能帮你搜索呈现;例如,输入“兰州”,所有有关兰州的清真美食资讯就都找到了;

是不是很简单?

不过,目前,平台内的信息量可能比较小,大家使用过程中会遇到找不到需要的信息的问题,共你饭正在努力填补信息,希望能更好的方便大家~

赶快去试用一下吧~

如何优化搜索和列表页排序

搜索排序的优化

首先认识一下个性化排序原理,即为京东新增加的一些维度,主要内容如下:

l 个人搜索记录、浏览记录、关注商品等操作流程导致个性化推荐。

l 关注度与购物基因,你关注了哪些商品,下次排序就会有个性化的推荐,如图所示。

购物基因与个性化的推荐

l 兴趣点、性别、购买力等维度,主要体现在PC端。

京东搜索优化的操作方法如下:

l 针对标题关键词提高商品点击量和订单转化率,提升商品质量分。

l 通过活动或者购买等手段增加商品的评论数,商家可以多参与京东快车、团购等其他活动。

l 保证转化率与点击率之间的黄金比例,确保主推款的稳定性,包括库存、价格、详情页、标题等。

l 做好客户体验,满意度和工单时效提升,减少退货率。

如图所示,为提高商品排名的六个步骤。

提高商品排名的六步法

列表页排序优化

列表页排序优化主要是针对三级类目页面的一个搜索排序优化。

1.列表页品牌排序

在列表页中可以看到一个“品牌”,如图所示。

品牌筛选

为什么这些品牌会展示在其中,又如何让你的品牌可以展示在这里呢?首先我们需要清楚这个版块的排序原理。

l 京东运营根据商家销量、知名度进行排序。

l 某些类目涉及到采销自营和POP,会有些先发优势。

l 原理和搜索排序规则基本相同。

对于商家来说,可以采用以下操作方法来展现品牌:

l 积极与京东运营沟通,添加品牌排序。

l 提供销量及品牌知名度证据。

2018年,刘强东曾强调,在整个京东里面的3个词“品质、品牌、品商”,其中品牌权重作为一个很重要的权重因子,影响单品排名。品牌分最高有九百多分,但新品牌分数很低,一般只有几分。京东平台为了扶持大品牌,在个别类目会直接给大品牌更多的品牌坑位(首页前几个),如手表、服饰等类目。

品牌分是这个品牌下所有商家共同努力推起来的,对于大品牌或者自有品牌来说,各有利弊。品牌分是归属给三级分类,给品牌在某个三级分类上加分。每个关键词都有自己的高相关分类,只要词是属于同一个三级分类下,都可以在这个三级分类下,给品牌分。其中,服饰、内衣、鞋靴、箱包、运动户外类目直接核算品牌分,其他类目则根据品牌等级来进行排序,不过只有一等级有机会被推到首页。

2.列表页商品排序

下面再来看看列表页的商品排名原理。

l 综合排序计算:销量、评论数、价格、上架时间等因素的综合排序。

l 价格排序计算:按照价格进行高低排序。

l 评论数排序计算:按照商品评论数高低计算。

l 新品计算:最新上架时间。

l 销量计算:按照商品15天销量高低计算。

l 团购销量计入销量计算。

l 销量统计时间为15天。

l 按照完成订单计算销售额。

列表页与结果页销量之间的区别,如图所示。

列表页与结果页

l 列表页销量计算商品在网站上所有商品的销量,而且搜索结果页只是针对该搜索词的销量。

l 计算销量时间点不同,列表页为15天,搜索结果页不确定,7天、3天、15天都有。

对于商家来说,列表页销量排序优化首先需要注重活动的拉动作用,而搜索结果页排序优化则需要注重选择精准的关键词和类目。例如,“女包”这个单品,列表页选择双肩包类目,而关键词则选“包包、单肩包女、双肩包女”等词。

列表页商品排名优化的6个步骤如图所示。

列表页商品排名优化的步骤

3.举例分析如何操作

以“蚕丝被”为例,类目选择“被子”三级类目,如图所示。要求所选择的类目商品的图片精美、商品详情页完善,有评论数、销量(至少50之上),目标是由第五页优化到第三页的位置。

选择“被子”三级类目

时间活动推广,可以分为以下3个阶段来进行:

(1)第一阶段“内功”为主(3~5天):先优化商品的详情页面、主图、标题、促销设置、关联推荐等,并通过一些购买行为或小活动将类目商品的人气值提升起来,保证订单量。

(2)第二阶段“活动”为主(3~8天):加大投入,增加付费推广途径,如京东快车、站外引流等,增加流量入口。

(3)第三阶段“多渠道”为主(8~15天):在自然流量的基础上,再持续投入微信、微博、百度等其他渠道进行引流,并利用报表持续跟踪,如图所示。

利用报表持续跟踪

对于列表页商品排序优化来说,商家必须重视中大型活动与多渠道的推广来进行冲量,并配合快车、首焦等付费推广活动,然后结合搜索结果页一起优化,总之,列表页排序比结果页排序竞争更激烈,需要投入更多的精力。

大快搜索助力北京大学大数据教学与科研

5月18日-20日,第12届“2017中国卫生信息技术交流大会暨软件产品与设备展览会”在青岛国际会展中心隆重举行。本次大会以“大数据 大融合 大健康 大发展”为主题,设立了大会主题论坛、11场专题论坛、亚洲论坛和4场拓导与培训,致力于全面贯彻落实全国卫生与健康大会和《“健康中国2030”规划纲要》精神,充分动员发挥各方力量积极实施国家大数据战略和互联网+行动计划,加快信息技术与卫生健康深度融合,进一步推动全民健康信息化和健康医疗大数据的应用发展。东华软件股份公司作为协办单位全程参与大会各环节。

盛大开幕

国家卫生计生委副主任、中国卫生信息学会会长金小桃同志出席19日开幕式并讲话。山东省人民政府副省长王随莲同志、世界卫生组织代表MichaelGeorge、亚洲电子健康联盟主席Dr Boonchai Kijsanayotin、香港科技园主席罗范淑芬在开幕式上致辞。国家卫生计生委有关司局、部分直属单位领导、中国卫生信息学会领导、各省市卫生计生委领导出席开幕式。大会开幕式由中国卫生信息学会常务副会长、国家卫生计生委统计信息中心主任孟群同志主持。

开幕式上举行了国家医疗健康信息互联互通标准化成熟度测评授牌仪式,近20家医疗机构获得授牌,其中就包括由东华软件提供解决方案的北京医院。

大会主题论坛邀请了国内外卫生和IT领域院士、知名专家学者进行了有关《健康医疗大数据应用与发展》《网络信息安全挑战与应对》《医疗大数据与人工智能的前景》《量子计算的现状与未来》主题的精彩演讲,共同探讨了卫生与健康改革发展和信息化建设的理论与实践。

东华软件在其后的多个分论坛发表了四场主题演讲,题目分别为:临床科研大数据平台建设及应用、互联网医院——构建基于新型互联网+医疗视角下的医患关系、基于家庭医生的居民健康服务平台及药学管理从供应链到临床药学,引起与会领导专家普遍关注。

聚焦东华

作为国内最具权威影响力的卫生信息技术和学术交流平台,展会现场,来自全国的医疗信息化企业同场竞技,对各自领域内最具代表性和最能体现创新意识的成果与技术进行了形式丰富的主题展示。东华软件作为本届大会的协办单位,携带最新的技术成果,包括:B2HO医院端产品线、B2HE区域产品线、B2M医保付费综合解决方案、B2C健康乐互联网医疗以及具体的案例分析精彩亮相。全新版本的《迈向8.0P的东华大健康综合解决方案手册》、《东华基于DRGs综合解决方案手册》、《患者管理平台手册》也同步震撼发布。一场医疗IT盛宴就此火热上演,位于展馆中心的东华软件展台瞬间成为本次行业盛会的焦点。

展会期间,来东华软件展台区的咨询者、互动者络绎不绝。他们关注东华医疗线上线下的闭环解决方案,包括健康乐患者管理平台、医院互联网建设、数字化医院整体解决方案、基于DRGs的各类区域及医院端的应用、区域医疗信息平台、医院信息平台、云医院等,对东华软件互联网医院建设的成功案例表现出了极大兴趣。

20日下午,国家卫生计生委统计信息中心主任、中国卫生信息学会常务副会长孟群等一行来到展示区参观了东华软件展台。孟群主任详细了解了东华软件的一系列医疗信息化整体解决方案,肯定了东华软件一直以来对中国卫生信息技术发展的大力支持,并对这一系列创新产品在未来医疗领域能够发挥的重要作用给予了高度赞扬!

在为期3天的展示中,与会者除了能够零距离感受和体验东华软件的全方位医疗信息化解决方案外,还可以在展台二层与业界重量级大咖一对一、零距离论道的机会。本次大会,东华软件精心准备了8场“东华·思想荟”医疗大咖秀,邀请了来自青医附院、北京中医医院、苏州科技城医院在内的各位院长及相关负责人,以及来自东华的各位医疗信息化技术专家,从多个角度向大家阐述和分享“用户+东华医疗”的创新成果和真实案例。

畅言未来

作为本次盛会的尾声,一场神秘的“黑科技之夜”技术交流活动于5月20日晚震撼上演。在这场充满了惊喜与期待的创新闭幕式上,东华软件作为大会特邀单位出席并带来了名为“科技改变医疗”的沙画主题展示。近年伴随着科技和互联网的发展,东华软件在医疗信息化领域不断发挥自身优势、创业创新,此次更是充分畅想了“健康管理机器人”“骨骼康复机器人”“手术机器人”“AR增强现实”等“黑科技”脑洞,为进一步探索医疗未来发展建言献智。

当晚,东华软件股份公司副总裁、东华软件医疗卫生事业部总经理韩士斌上台接受了本次大会对东华软件的荣誉授予。作为国内智慧医疗的龙头企业,东华软件深耕医疗信息化行业18载,坚持“以柔应变、整合应用、服务临床和管理、创造价值”理念,专注、专业、持之以恒打造集数字化医院、区域医疗、互联网医疗为一体的全面智慧解决方案。东华软件注重解决方案外延的同时,深入医疗垂直领域的应用,丰富解决方案的内涵,相继开发出单病种医疗质量评价系统、DRGs医院解决方案、DRGs区域医疗评价和医保支付解决方案、基于互联网的云医院等。

未来,东华软件必将再接再厉,继续为中国医疗信息化事业贡献力量!