页面速度将影响谷歌移动版搜索的排名

那些浏览起来十分缓慢的网站无疑会让用户觉得蹩脚,谷歌显然清楚这一点——从 2018 年 7 月开始,谷歌将在排名算法中使用网页的速度进行移动搜索排名。这意味着慢速网站将受到一定的“惩罚”,而更快的网站将在搜索结果中排名更加靠前。

谷歌为这个更新起了一个毫无创意的名字——“速度更新”。速度更新只会影响最慢的页面,会用相同的标准衡量所有站点,而不管用于构建它们的技术为何。慢网站并不会被完全驱逐,在某些方面排名很高的慢速网站仍然可以显示在搜索结果的顶部。

谷歌很早就在桌面版搜索中使用网站速度作为排名依据,而开发者也拥有工具来对自己的网站进行测试。因此,在谷歌推出速度更新后,一些慢网站可能会变快。

Source: Android Police

你错过的 淘宝免费搜索流量获取方法

淘宝自然搜索作为宝贝获取免费流量的核心渠道,在日常运营推广中,所有店铺均期望获取更多的免费搜索流量,实际上,若宝贝欲获取更多的搜索流量,则宝贝必须被搜索引擎越来越认可,我们通过思维发散,引申出搜索最核心的本质。

谈起搜索,就不得不提到权重。

宝贝排名权重=个性化展现权重+宝贝综合人气权重+其他权重。

宝贝综合人气权重= 店铺权重+品类权重+人气权重+关键词权重综合反馈而得。

纯意义上而言,权重并不是简单的“+”计算,这里只是用于表现,实际上搜索逻辑必然是层层筛选,金字塔模式。

所以,在运营优化的过程中,偏重于宝贝个性化展现权重和宝贝综合人气权重是重中之重。通过定义分解,实际上宝贝所获取的流量基数,核心依赖于三则关系。

1,宝贝对应的人群标签流量池容量。

2,宝贝获取流量的相关关键词最近市场趋势走向。

3,宝贝获取流量的核心主打关键词人气排名。

如何快速建立标签流量池?我们有很多种方法,在接下来的文章内容将阐述如何快速建立CRM标签流量池,及个性化标签快速建立的过程,同自然SEO仍然具备五位一体相关性特征。

至于关键词的市场走向判断,需要利用生意参谋搜索词分析工具,查看相关关键词近7天数据走势、关键词反馈的市场转化率状况、以及关键词所匹配的市场人群表现等综合数据指标反馈,最终选定相关关键词。

店铺权重

用越来越好的服务把越来越好的店铺中越来越好的宝贝以越来越快的速度送到越来越多的用户手中,让越来越多的用户喜欢。

越来越好的服务:

1,询单转化率、旺旺相应时间,旺旺在线时间等

2,售后响应率等

3,均值退款速度等

越来越好的店铺:店铺综合权重

1,店铺DSR:店铺DSR是由店铺所有单品DSR综合反馈而成。

店铺DSR:检测店铺综合运营能力的关键核心。

单品DSR:我们在宝贝详情里的描述。

这里的5分表示的意思是:DSR中的D;details。Details如果长期是4.9分以上高分,对于这样的宝贝品质上还是非常有保障的,这样的宝贝在销售的过程中品质上更加具有优势,系统针对这样的宝贝也会有更大的权重扶持,这也是针对店铺内部选款最重要的一个参考渠道。

2,店铺动销率

店铺动销率反面相针对就是店铺滞销率,30天不能销售2件的产品会成为滞销产品。而实际上,我们在运营的过程中,对C店而言,如果7天都不能销售1件;对天猫而言,如果15天都不能销售1件且并没有什么流量,这样的宝贝,需要删除或者下架,然后再重新发布,重新发布时,注意宝贝的主图要进行调整,以及整个主图匹配的像素模块和之前的主图有较大的区别,同时你的产品标题也需要进行相关的调整。

3,店铺上新率

对于淘系众多品类而言,针对上新新品都会有新品标,这样的新品的初始权重相对其他没有新品标的产品会高一些,这样的宝贝,在操作的过程中,也会获取到的新的用户群体,带来的收益更加均衡化。

好处之一:店铺增加了产品深度、活力,更加有利于店铺个性化标签人群组形成。

好处之二:会增强店铺回头客对店铺的粘性,尤其是针对部分类目回头率高达30%以上的品类,效果非常显著。

好处之三:淘系会扶持这样的宝贝,也会扶持这样的店铺,对于小C而言,保持稳定的上新,必要时,可以获取到一些相关的新品运营资源,若你的产品具备一定的风格调性,且实拍保证,则有很大的机会申请腔调“Ifasion”打标资源。

注意:上新的产品切勿为了上新随便乱上新,你上新的产品定位尽量明确,同时,针对上新批次的产品,你需要作一些CRM维护和管理,为测款和维护创建一些基本条件。

关于店铺上新,运营根据适时条件,需要依据年度运营销售计划制定上新产品规划和批次,该适合体量较大的店铺,且具备相对优质对产品供应链以及产品品质把控能力。

例如:制定周上新计划,同步稳定上新,详细上新流程,参见我之前文章,有相关分享。

推广方面:钻展访客定向落地新品页。

4,店铺退款纠纷率、店铺基础优化、店铺均值退款率等店铺售后影响指标,必须尽最大程度避免。

实际工作中,关于退款的说明:

我们可以采用以下这样的方法,客人选择退款有几个环节。

状况一:客人想退款,但是担心不能退款。

应对:给予优质售前和售后服务,引导加忽悠,转型客人换货。

状况二:客人最终决定退款,且在旺旺上联系了商家退款。

应对:尽量服务好客人,必要时,进行客人询单转型。

状况三:客人静默选择了退款。

应对:针对部分客人静默选择退款,可能会选择除了七天无理由退货换的其他理由,对于这样的客人,必须通过旺旺或者电话的联系方式,编辑好的话术引导用户修改退款协议。

状况四:针对退款不走线上流程,而是选择返款的形式(返款操作的过程,当客人联系之时,可以要求客人加微信,告知微信统一返款以及定时抢红包活动),注意,考虑到资金损失风向,必须观察所推广的产品是否设置了高佣金返利,并严格审核申请高佣金返利的淘宝客,否则,如此操作极易造成资金损失。

越来越好的宝贝:宝贝人气权重

1, 销量累计以及销量增长率。

2, 加购量、加购率以及加购增长率。

3, 收藏量、收藏率以及收藏增长率。

4, 好感度叠加以及好感度变化增长率。

5, 宝贝购买力表现以及购买增长率。

6, 宝贝退款率。

7, 宝贝的售后入口介入,相关的解决方案。

宝贝人气权重是影响宝贝排名权重的核心,是影响宝贝搜索获优质流量的关键。

单品爆款热销款、店铺小爆款群的形成绝对依赖于宝贝的增长人气。在实际运营过程中,爆款的形成有多重现象,

现象一:刚发布不久的宝贝,策划上淘抢购以及几十万UV的淘客流量短期内带动上万笔的销量,最后,宝贝搜索流量日搜破万。其操作原理,不是标题优化,而是在单位时间速度猛怼销量,保持销量高速增长,提高了宝贝综合权重,如此,宝贝自然会根据标题的关键词切分匹配到相关的自然搜索流量。这样的产品普遍有一个特:产品销售的最终价要偏低,因为,前期通过活动和淘客引进的人群均是价格敏感性人群,会造成系统匹配人群也是价格敏感性人群。对于高客单商品,如此操作方法,可行性并不高。这样会存在相关的案例策划分享,请持续关注。

现象二:刚发布不久的宝贝,简单通过直通车测款之后,发现款式表现相对比较优质,接下来,以优化直通车加购ROI等数据模型为基础,不断优化直通车推广计划,同时逐步加大广告预算。广告持续投放,一直到宝贝具有稳定的自然搜索流量,最终形成爆款热销款的打造。

其原理,是利用直通车加大推广,直通车带来宝贝的数据反馈不断提高宝贝的人气数据表现,最终超过获取搜索流量阈值,形成搜索流量的过程。这种方法,相对比较传统,也比较成熟化,当然投资也比较大,如果对产品有足够的信息,但凡可以操作一试,对产品对位价位所表现的依赖性极高。

现象三:刚发布不久的宝贝,简单测试款之后,通过CRM鱼池计划,在单位运营周期内,以关键词搜索不断提高关键词加购转化的实时反馈数据,同时一定程度提高销量和销量增速的过程。

其原理,是利用最接地气的关键词流量入口作为突破口,短时间内,以优先提高关键词权重,再附带提高宝贝综合排名权重的人气过程,该方法,非常可行,且适用于运营资源相对缺乏的小卖家。影响宝贝人气权重如此多要素,那么哪些数据指标影响是最明显的呢?

解读:

1,宝贝的搜索访客逐步增加,但搜索增长率在逐步下降。

2,宝贝的转化增长率持续下,但加购增长率前5天保持增长,后3天保持后退。

宝贝搜索转化增长率逐步下降,且搜索访客在逐步增加,说明宝贝的市场反馈综合人气在不断萎缩,而转化增长率不断萎缩,伴随着宝贝搜索增长率同步不断萎缩,说明是转化增长率直接影响宝贝的搜索增长率,换言之,在日常运营过程中,分析出宝贝实时转化增长率数值,进行合理的CRM鱼池补单尤其重要。

另外,宝贝加购的增长率明显同步与搜索访客,说明,在宝贝成长过程中,实时加购以及加购增长率可以明显的推动宝贝搜索访客的增长,所以,在测试以及推广宝贝之时,通过店内外流量渗透,进一步让推广的宝贝得以曝光以获取更多的流量,提高宝贝的加购增量,以提高宝贝的搜索UV,达到新品测试以及日常推广的过程。

越来越好的速度:

DSR中的R,售前售后服务指标,影响全店权重的同时,间接影响宝贝的综合权重。

1,发货速度等

2, 收货时间等

3, 确认收货时间等

越来越多的用户:回头客以及回购贡献率

淘宝是基于流量运营平台,平台需要更多的用户才得以进一步发展,平台不断调试规则,以约束商家不断优化用户体验和帮助阿里站外引流,拓大人群规模,同时增强更多的用户对淘宝的粘性。因此,这里的权重和人气权重对宝贝影响力一样,及其重要。

应对:

1,高购买等级CRM用户,进行归纳整理,为己所用。

2,大V、直播网红粉丝UV、达人等内容推广主题,均可增加权重。

内容来源:行行出状元网

图片来源:互联网

投稿啦!!!

你有故事,

我有平台。

相见

行行出状元

好用

阅读原文

从手淘搜索到优酷短视频 阿里巴巴是如何在搜索推荐领域下应用深度学习的

摘要:深度学习是一个既可以处理特征、学习特征又可以实现最后的排序打分的一套整体解决方案,借助深度学习的解决方案,搜索推荐的工作方式将发生巨大的变化。想知道阿里巴巴如何将在搜索推荐领域下应用深度学习技术的吗?想知道手淘和优酷搜索结果的个性化又是如何实现的吗?本文不容错过!

本节视频地址:2019/20190426A/F0119525

PDF下载:2019/20190426A/F0119526

演讲嘉宾简介:

孙修宇(花名:翎翀),阿里巴巴机器智能技术实验室算法专家,工学硕士,2014年加入阿里巴巴,一直从事深度学习基础技术研究以及在各个行业的应用。

以下内容根据演讲嘉宾视频分享以及PPT整理而成。本文主要围绕以下几个方面进行分享:

  1. 为什么使用深度学习技术
  2. 手淘主搜索场景
  3. 手淘详情页推荐场景
  4. 优酷搜索场景

在本文中,首先将分享阿里巴巴为什么在搜索推荐里使用深度学习技术,并将以3个场景为例介绍深度学习相关的技术是如何被应用到搜索和推荐的场景里面的,这里所选取的3个场景分别是手淘主搜索场景、手淘详情页推荐场景以及优酷搜索场景,这些都是比较具有代表性的场景。

一、为什么使用深度学习技术

阿里巴巴为什么在搜索推荐里采用深度学习技术呢?正如大家所知,传统的搜索推荐任务相当于要针对商品、用户以及一些如检索词等的其他背景信息进行特征工程,其中包括了统计类的特征、ID类的特征以及各种各样其他的人工交叉类的特征等。之后将这些人工设计好的特征输入到一个像LR或者XGBOOST等的机器学习的工具中去,通过人工设计特征、点击或者用户行为的日志,再加上机器学习的工具三者结合起来,可以获得一个针对搜索或者推荐的特定领域的排序模型。

在具备了深度学习的解决方案之后,整体的工作方式就会发生改变。正如大家所了解到的,深度学习这套方案最早是应用于图像领域的,这套方案一个很大的优点就是可以直接学习出来一些人工设计的特征,或者可以根据之前的样本学习出其认为更加有价值的特征,这个特征可以代替人工设计的特征,这也就是深度学习所具有的特征抽取能力。同时,在分类的时候,深度学习的拟合能力也非常强,其拟合能力比XGBOOST、DBDT以及LR等方案更加优秀,所以深度学习是一个既可以处理特征、学习特征又可以实现最后的排序打分的一套整体的解决方案,以上这些也是阿里巴巴在搜索推荐里采用深度学习方案的原因。

二、赋能电商-手淘主搜索场景

在手机淘宝(以下简称手淘)的主搜索场景下,设计了一套End2End的训练框架,针对最原始的行为数据,比如点击、购买以及用户的历史行为自动地学习特征,并使得模型最终可以对于用户、商品以及检索词更好地进行描述,从而提升最终业务指标(GMV)。

模型结构

如下图所示的是手淘中设计好的模型结构。在模型中将检索里面的各种信息分成了3个主要的领域:用户表达域、商品表达域以及检索词表达域。与传统方案不同的是在这个模型中并没有采用一些统计类的特征,而只是使用了用户、商品以及检索词这样ID类的特征,就像传统One-Hot的表达方式。这里的ID类特征覆盖了1亿多商品、2亿多用户以及5百多万个常用的query。

上图中虚线框表示的是embedding的过程,不同域下的信息通过一个三层的全连接网络会被embedding到一个低维的连续空间里面去,这里有所不同的就是第一层并不是全连接层,而是稀疏的全连接层,这样的设计更多地考虑到了计算的效率。三个领域内的ID都被映射到一个低维空间后,采用一个Concat层将这些信息整合到一起,之后又经过一个三层的全连接网络,而最终的学习目标就是前面所提到的点击、转化以及购买等行为。通过这样的模型结构就可以End2End地去获得搜索中排序的解决方案。

商品编码

前面也提到过最初手淘采用的是One-Hot的特征表达来表示商品、用户以及检索词,这样的方式会存在商品以及用户的维度特别高的问题,相当于维度会多于1亿,对于如此之高的维度直接使用One-Hot来进行表达就会占用大量的资源,所以手淘在主搜索里面就采用了随机编码的方式将N维的One-Hot的表达降低成N/20维这样更低维度的编码表达。

这里所采用的非常简单但是非常有效的方法就是做一个映射,可以假设N维的One-Hot的表达中的6个红色的点就表达6个唯一的值,而黑色的点表示为0值,用这6个不同的点来表达左侧的第一位,而下面的这个对应的One-Hot对应的是右边6个红色点的表达。这里做了一个限制,限制的原则就是不同的表达之间的重复的位最多只能达到3个,通过这样的限制方法就强行地将One-Hot映射到了一个低维的空间中去。这样既能保证多个点来表达编码,也保证点与点之间或者不同表达之间的差异性足够大,从而实现对于One-Hot编码进行压缩。而挂靠编码和分词编码则是在此基础之上的两种改进方式,比如挂靠编码就是对于一些热门商品而言,其行为是比较丰富的,这个时候就认为热门商品有自己唯一的表达,而对于冷门的商品而言,则认为其行为会比较稀疏,可以使用一些类似于哈希的方法将被认为可能会存在关系的商品用相近的方式进行表达。分词编码与挂靠编码的意思类似,只不过在前面的随机编码方式的基础之上引入了一些人工设计出来的编码方式,比如对于query中的“红色”以及“连衣裙”都会有一个特别的表达,而对于分不清的部分则可以使用一个特别的编码进行表达。

稀疏编码层

正如前面所提到的,稀疏编码层的具体实现就是稀疏的全连接层。其主要的目的就是减少计算量。一方面可以将原本稠密的矩阵乘法改成了稀疏的矩阵乘法,计算量会大大降低,计算效率也将大大提升,与此同时还解决了内存的使用问题,将原本可能需要多机多卡才能解决的问题简化成为单机单卡就可以解决的问题,提升了训练的效率。

多任务学习

在手淘搜索推荐中采用了多任务学习的方法来学习最终排序的分数。

在传统的检索排序里面的实现方案通常分为两到三步,第一步一般是一个召回的过程,也就是根据检索词选取出来与当前检索词相关的商品的信息,将这些与检索词相关的商品做成候选商品池,在这些池中再一层一层地实现。首先,需要根据商品本身的一些历史统计信息或者打分等其他信息对于池中的商品再进行一次排序,之后进一步取出商品的信息。这样就会实现数据量从上亿到百万量级,再到万量级的转变过程。最后还会进行精排的过程,此时为了更好地提升转化率会将用户的个性化信息加入进来构成排序模型。这里将商品数据量从百万到万的级别叫做海选,这部分可能只是与商品相关的,把这部分的训练以及后面排序的训练同时去做,这就相当于一方面在训练用户自己表达的同时对于商品进行打分,学习出商品的好坏的表达方式。通过这两个任务的学习同时获得了两个分数,即海选部分的分数以及精排部分的分数,通过排序这两个部分的同时作用将会更好地增加排序所得结果的多样性,进而通过多样性来提升最终转化的目标。

多模态和在线学习

在实现手淘主搜索场景业务的同时还引入了多模态和在线学习,这两个技术更多地是为了应对淘宝的大促场景。众所周知,“双11”就是一个非常典型的大促场景,用户在那天的行为非常丰富,不同的推销或者促销的商品以及行为也都是多种多样的,这时候淘宝所采用的方案就是使用深度学习的技术将用户、商品以及检索词等之间长期稳定的关系学习出来,同时再引入一些连续类的特征以及ID类或者交叉类这些传统的人工设计的特征,此外还引入一些商品的实时表达的特征,将这两部分特征融合到一起,之后通过在线学习的机制来学习最后的三层全连接,或者只去学习最后一层的LR来实现既可以考虑到商品以及用户稳定的偏好,也能够同时考虑到用户在当时的大促场景下的偏好的结果。通过深度学习所获得的特征与人工设计的特征这两部分的融合,淘宝的推荐在“双11”等大促场景中取得了非常不错的效果提升。

三、赋能电商-详情页看了又看

前面为大家分享了在搜索领域下常用的深度学习技术以及所获得的效果提升,接下来为大家分享推荐的场景。推荐场景与搜索场景既有相似之处,也有不同之处。在搜索场景下,候选商品是与当前的检索词相关的,而在推荐场景下,则需要猜测哪些商品会与用户之前的历史行为相关,比如在下图所展示的详情页的场景下,所推荐的商品也会是与其详情页相关的,比如在召回的过程中对于候选的商品究竟应该如何选择,在搜索和推荐场景下会具有一定差异性,并且在最后的排序过程中,搜索和推荐场景下所完成的任务则是比较类似的,这也是认为可以使用一套类似的方案来解决两个场景的问题的原因。

对于详情页的推荐场景的设计方式是给定一个主宝贝,根据这个宝贝来推荐当前同一个店铺中的其他商品。在这个场景下非常有意思的一点就是行为往往非常丰富,因为一方面用户每天浏览过的商品可能会有上亿或者上十亿个,另一方面与商品相关的其他商品的关系却是非常稀疏的,虽然用户每天都会看到很多商品,但是商品之间发生了有效行为的情况却是非常少的,并且非常不均衡,这就使得直接训练可能会造成不均衡,而整个模型由于数据的分布以及用户行为的稀疏度,所训练出来的效果也不会特别好。

迁移学习

面对以上所提到的问题,手淘在详情页推荐中就采取了一个新的思路:迁移学习。首先,利用了淘宝中与用户历史行为相关的全量数据,其中包括了搜索、推荐以及广告等数据,对于这些数据进行统一的处理,然后使用上述在搜索场景中所提到的模型结构去训练深度学习模型,并学习用户和商品之间的特征。这里为了统一地进行处理,就将搜索场景中的query或者检索词相关的域与推荐场景中的信息,比如详情页中的主商品信息都统一地去除掉,只去考虑用户点击过或者购买过的商品之间的关系,通过深度学习的方案可以学习出用户和商品的特征表达。

前面也曾提到,深度学习技术之所以有效的很重要的一个原因就是其可以自己学习出来针对于原始输入的特征表达,也就是可以学习出当前目标下的更好的特征表达。而使用迁移学习的方案,就能够得到稳定的、鲁棒的用户与商品的特征表达,将这个特征直接作为商品和用户的表达,同时与当前业务也就是商品详情页推荐业务下的日志相结合,之后使用类似于传统的机器学习的方法,比如可以将传统机器学习方法中的LR、GBDT通过DL进行实现,通过这两部分的结合形成的迁移学习方案得到了很好的效果提升。同时,采用这样的方法可以保证所学习出来的仅具有少量数据或者数据比较稀疏的场景下也能获得稳定的转化以及点击率的提升。

四、新场景探索-优酷短视频搜索

接下来以优酷短视频搜索为例为大家分享阿里巴巴在新场景下应用深度学习的探索。前面所提到的搜索、推荐以及个性化基本都是在电商领域下,现在也将其推广到了优酷的短视频搜索场景下。

短视频的搜索与传统的电视剧的搜索不完全一样,一方面短视频的搜索需要考虑到检索词与短视频之间的相关性,另一方面还需要考虑短视频的真正质量,所以这里也存在转化的概念。在短视频搜素场景下需要对之前的整体模型方案进行改进,所做的改进主要可以分为三点:首先,之前的检索方案只有在最后的几万个或者几千个商品的重排过程中才会引入个性化的信息,而在短视频搜索场景下的模型中则是将个性化前移到召回的部分,同时与最终的排序模型进行了统一;其次就是多模态信息的使用,视频检索需要考虑到相关性,相关性最简单的是文本与文本之间的相关性,但是对于短视频而言,最终需要搜索到的是视频内容,所以一方面采用了文本信息,另一方面采用了视频以及图像信息来进行表达,而对于这些不同域下的信息都做了embedding,之后再使用之前提到的统一的模型,该模型将行为编码和内容相关的编码整合到一起,这样既考虑到了相关性,同时又可以提升最终转化率。最后一点的改进就是针对用户历史行为的表达,之前在做用户表达时更多地采用了历史的行为信息来表达用户,但是这里面存在的问题就是在淘宝场景下,用户的行为是非常丰富的,每个用户在一个月内都会产生大量的行为,而且行为的稳定性也非常好,这时候就可以加入很多的历史数据以此较好地描述出用户的行为偏好是什么,但是在像优酷短视频搜索这样的新场景下,用户的行为是很稀疏的,很可能用户一个月内的短视频类的搜索仅有几次,这就使得用户的历史行为很难去描述出真正的偏好,所以在这样的场景中采用了新的方案就是将用户全网的观看历史行为全部提取出来,利用这些信息来表达用户的偏好,然后再将用户表达的其他信息整合到排序模型里面来提升个性化的影响。

个性化的召回

在个性化的召回方面采用了一个非常经典的模型结构——DSSM。通过这样的模型结构可以直接去学习检索词、用户以及视频表达的embedding之间的关系,进而最小化embedding之间的距离。在模型中,为了简化线上操作,用户和检索词的embedding只是进行了简单的累加,并没有对其进行统一的编码。累加之后的结果直接与视频相关的embedding做COS距离的最小化。

如上图左侧所示,模型中并没有对每个用户都进行ID表达,这是因为使用ID表达需要大量的有效的行为数据,而是将ID表达都转换成了视频的ID表达,用户所观看过的历史视频的ID可以做一个简单的平均来用于表达用户。通过这个框架就可以直接去学习出不同的embedding之间的距离,并根据距离从小到大进行排序进而得到最终想要的排序结果。之所以说这是一个个性化的召回模型,是因为可以直接将检索词与视频之间相关的部分加入用户的信息,也就是说在检索的第一步中就会考虑到用户信息。不同于以往的召回模型只需要做一个倒排表就可以完成,现在优酷短视频搜索场景下的基于embedding的方案可以采用新的量化索引的解决方案来处理海量数据的检索,最终通过工程以及针对量化索引引擎的优化可以实现实时地完成个性化召回计算,并且可以在计算时间不变化的情况下获得更好的效果。

多模态表达

上一个图中的模型只是采用了与query以及ID相关的表达,其实在做与召回更加相关的任务时需要考虑检索词的文本信息以及视频的文本信息,以及如下图所示的视频相关的一些展示图embedding信息。需要同时考虑以上这些信息,然后使用多个行为信息、文本信息、视频信息以及图像信息等的融合表达来提升整体的效果。这个方案相比于之前的ID方案,鲁棒性会更强,这是因为文本信息的加入会对于新产生的视频起到更好的召回效果。

用户历史行为的表达

用户历史行为表达的最简单的方案就是用视频表示用户,也就是将用户之前所观看过的视频的列表的ID放在一起存储起来,或者先做一个embedding的编码,然后将embedding向量进行平均,用平均数来表达用户的历史偏好。但是这里也存在一定的问题,就是用户历史的观看行为以及在电商中的购买行为是多种多样的,可能是多个领域下的行为,而这些信息中究竟哪些信息与当前场景下的检索词是更加相关的呢?所以如果能够找到与当前检索词更加相关的历史偏好就能够极大地提升排序的结果。举个简单的例子就是用户搜索了“体育视频”这个词,某些用户之前观看过足球类的视频,而有些用户则观看过篮球类的视频,通过检索词的embedding与之前embedding的相似度比较或者做一个Attention,用当前这个“体育视频”去找到与其更加相关的这些历史行为,这样就能实现对于不同用户产生不同的表达,并且忽略掉其他不相关的信息,这样就能更好地获取用户在当前检索词下的偏好,使用此偏好与之前提到的整体的模型框架整合到一起之后就能够将召回的结果展示给用户。这就是对于表达用户历史行为的改进方案,通过利用Attention机制的方案以及前面几种不同的改进方法在优酷短视频搜索场景里对于转化产生了很大的提升。

总结

总结而言,本文首先针对于深度学习的特点进行了分享,深度学习具有很强的特征提取能力以及拟合能力。之后针对手淘几个场景介绍了具体使用的深度学习技术,最后介绍了如何将电商领域中的推荐实践扩展到短视频领域的新场景下,帮助实现效果的提升。

本文作者:萌萌怪兽

本文为云栖社区原创内容,未经允许不得转载。

苹果App Store搜索瘫痪

昨天晚上,一则消息在网上疯狂流传,苹果App Store 所有腾讯产品都已经下架,请不要轻易删除手机中微信和QQ,苹果商店下不到微信和QQ了。

对此,腾讯作出回应,此为假新闻,QQ、微信等腾讯系产品并未被苹果App Store下架,用户在苹果App Store搜索“QQ”等关键词不能显示相关应用,此为苹果App Store临时后台问题。

实际上,苹果App Store官方商店出现了搜索故障,众多关键词匹配混乱。如搜索“腾讯”出现“虎扑体育”,搜索“淘宝”出现“返利网”,而这些品牌词下原本对应的App则从搜索结果中消失。

业内猜测或许并非下架,而是App Store疑似发生故障。目前,苹果官方尚未就此事发表声明。

业内人士向环球网科技表示,并不是每个人都了解互联网和电子产品,苹果App Store服务器维护导致应用搜索错误。

而在今日凌晨,苹果Apple Store bug已修复,被“消失”的微信QQ恢复搜索匹配,目前已经能够顺利搜索到微信、QQ等APP。

这并不是App Store第一次出现这种问题,不管是App Store还是苹果官网,都出现过不同程度的“宕机”。去年9月,在iPhone 6s正式预定前两小时,苹果官网出现了无法访问的错误,不仅是中国官网,香港、台湾、美国也出现同样错误。

据了解,前不久,苹果已经组织了一支团队,来对App Store的搜索模式进行改革。据Bloomberg报道,苹果目前正在考虑允许开发者通过付费来使他们的App排名“更加显著”,甚至可以排到搜索结果 的榜首,同时“改善用户使用App Store的方式”也在计划之内。

“苹果正在考虑付费搜索模式,这是一模式类似于谷歌搜索,公司为他们的App付费,其应用在用户搜索到相关类别时排名就会靠前。例如,一个游戏应用的开发者为他的应用付费后,当用户搜索“足球游戏”、“拼词游戏”等游戏关键词时,他开发的应用就会出现在搜索结果里。

苹果应用商店在WWDC开幕前迎来巨变:加入搜索广告

这可能是2008年App Store建立以来的一次最大变动

文/郭晓光

新浪手机讯 6月9日凌晨消息 在中国的端午节前一天,苹果公司全球市场营销高级副总裁菲尔·席勒(Phil Schiller)电话连线新浪科技,在下周的全球开发者大会开幕前(WWDC)透露了一些应用商店方面的消息。重点包括:1.更完善的应用审核;2.新的商业模式;3.应用商店搜索中加入广告。

第3点很令人意外,可说是巨变。

一 应用审核速度加快

席勒公布的第一个消息与应用审核速度有关。他谈到目前App Store每周有10万次应用审核,过去几年里,苹果一直提升审核速度及质量。截至目前,苹果已经缩短了审核时间,现在有50%的App在24小时内便可得到审核,90%则可在48小时内得到审核。同时,苹果会确保审核的质量。

2008年7月11日苹果App Store上线。虽然此前也有供人下载App的应用,但只有苹果公司真正将它变成了“软件+商店”的经营模式,由此促进iOS生态的发展,成就今天的iPhone。

根据苹果官方统计,截至去年6月,App Store中已经有超过150万款应用;自App Store发布以来,共为开发者带来了400亿美元的分成。

加快审核对App Store绝对是个利好消息,多年前曾有开发者抱怨App提交后10多天后审核也无法通过,但今年其实已经有所改善,从之前的10多天加速到3天左右。现在提交后,基本2天、甚至当天便可完成。

二 加强版订阅模式

席勒带来的第二个消息与App商业模式有关。

目前,App Store平台上的商业模式有:免费应用内的广告、免费应用的内购、付费应用以及订阅。

此前订阅这种模式只适用于某些类别,比如音视频流媒体、云数据、报纸书刊订阅等服务,但现在,订阅扩展到了所有应用类别,例如游戏,以前内购刀剑是一次性消费行为,当开发者将订阅模式加入自己游戏中,用户可以每月付费的方式定期获取装备,开发者也可以给订阅用户一些优惠。

订阅分成方式也更新了。过去是“三七开”(苹果分得30%收入,开发者获得70%);从下周App Store新政实施之后, 第一年仍是三七开,但第二年开始变为85:15,开发者获取85%的收入,苹果得15%。这是对开发者更大的吸引和更多的挑战,这条规则会促使开发者在经营过第一年后获得更多收入,刺激开发者想出更多办法做出更好的内容留住用户,让自己的App走得更长远一点。

另一些是“价格点”的更新。席勒在电话中告诉新浪科技,更新价格点可以让开发者在不同区域和市场有灵活定价权利 ,用户也有能更好控制自己的订阅。2014年底,苹果尝试在中国推出1元应用,从此结束了App Store六年以来最低6元(0.99美元)的定价方式。

三 Search Ads搜索广告

第三点是最令人惊讶的改变,苹果在App Store平台的搜索结果中加入广告。

搜索广告将作为首个显示结果出现在搜索结果页中。苹果希望,通过它帮助开发者更有效地推广自己的App。席勒谈到这点时候说:用户不会对搜索引擎或社交媒体中的广告陌生。

尽管谷歌官方的应用商店Google Play中早有类似行为,但苹果宣布自己也会做搜索广告,可说是巨变。尤其在国内,人们刚刚经历百度魏则西事件之后,搜索与广告这个两个词放在一起显得比较敏感。

席勒解释苹果做这件事的几个特点:广告会有蓝色背景和图标,会被清晰的标识出这是一个广告;与搜索结果关联度很高的才会出现在广告位置上;搜索结果只是App,不能通过搜索得到别的东西;13岁以下的青少年不会看到搜索广告;另外还有些关于保护用户隐私的细节,例如不会追踪用户信息,不会与开发者分享用户数据等。

席勒称,对一些小型独立开发者来说,这套搜索系统会很高效;定价系统采用CPC模式(Cost Per Click,网络广告的收费计算形式)只有用户点击广告才会计费。

这种商业模式能给苹果带来多少收入并不确定。并且苹果也在谨慎尝试这种模式,他们在今年夏季(应该就在WWDC前后)开始测试,秋季在美国正式推出,之后才是中国等其他市场推出,但没有具体时间表。

四 搜索广告对苹果是好事吗

新浪科技在得到这个消息后立即询问了一些开发者,得到的答案比较乐观,实际上我们本以为他们会非常排斥这件事。

原本我们担心搜索结果会破坏App Store的公平原则,但一些App开发者说,他们相信苹果的准线,苹果的官方广告至少会让之前社交推广或通过刷榜公司那些混乱无序的方式得到改善。

部分App开发者为我们介绍说,目前App自增长(指不进行任何干预或营销)很难,业内常见的App推广办法找付费渠道推广,但这些公司有可能为了挣钱而数据造假,广告主付钱后还需要甄别真实数据;另一方面,很多推广渠道不愿意接受量小的App(比如财经类App无法像游戏用户量那么大);而刷榜行为,是早期很多创业者做给投资者看的,刷量会像吸毒一样无法停止,恶意刷榜还有可能被苹果下架。

“如果有了官方搜索广告,我们至少能找到一条更可靠的途径推广自己的应用”,来自新浪财经开发团队成员说,只是希望苹果不会像曾经的百度一样。

五 关于搜索广告的一些关键问题

问:搜索广告在其他平台出现吗?

答:目前会在iPhone和iPad两类不同设备的App Store中出现。

这是两个用户量和活跃度最好的平台,我们预估若它的效果较好,迟早会在其他平台出现。

问:广告会很多吗?

答:不会,这不是卖榜单,只是搜索结果第一位变成了广告位。苹果还比较克制,搜索结果中的广告有且仅有一条。并且会用蓝色背景和图标,清晰标识出这是一个广告。

问:会不会泄露用户隐私?

答:苹果官方称不会追踪用户信息,不会与开发者分享用户数据等。这也是苹果一直坚持,希望在搜索广告业务上也会这样。

问:搜索广告会影响正常的搜索结果吗?

答:席勒的答案是不会,搜索相关级别优于付费。就像我们上文描述的,与搜索结果关联度很高的广告才会出现在最顶端广告位上。

问:搜索广告怎么计费?

答:广告主可以设置每次点击的最大点击成本,就是每一次点击计一次费。广告主支付的钱多少取决于你的竞争对手出价高低。

苹果允许用户自己设置上限,避免超支;广告主可以设置每天最大花销,以控制预算。

问:苹果说13岁以下的青少年用户不会看到广告,年龄如何判断?

答:Apple ID中是有出生日期的,并且苹果标注“您需要提供正确的出生日期,才能启用部份 Apple 服务”。

不排除有人更改。目前是看用户自觉程度,但我们猜,如果苹果想严格一点,可以建立实名认证机制,但这将是个浩大工程。

p.s. 以上某些细节可能会在测试之后更改,等它正式上线我们再重新评价。

百度相关搜索的不实信息该如何处理

我们在百度上搜索某个关键词时,会出现一些下拉框,这是客户搜索比较多的词,百度会推荐给你,但是有时候百度搜索下拉框和相关搜索中会出现企业负面词。随着互联网狂飙式发展,互联网已融入了人们的生活、互联网用户急剧增长,当然不可避免一些不法之徒,借互联网之力来大肆宣传不实信息来扰乱正常的市场竞争。对与相关搜索词有关的企业造成不良的影响。这时就需要剔除掉不实信息的内容,以维护正常的市场秩序。

那遇到不实的百度相关搜索词如何处理呢,接下来小编就和大家聊聊这个话题!

一、登录百度账号,百度搜索“百度投诉”,点击进入

二:点击“百度搜索”

三:进入百度搜索页面,选择搜索提示词删除功能,可以针对下拉,底部搜索,以及右侧推荐内容,进行投诉删除。

四:写好关键词,选择对应类型,做好详细说明,然后提交就行了,投诉内容严重程度要写清楚。

但是这个治标不治本只能短时间帮你消除,若是产品或品牌服务不行,最终还是会有很多负面出现,相关搜索负面词也就随之而来了,所以自身的产品和品牌服务要做好。但如果出现的问题比较棘手的话,我建议还是找专业的机构比较妥当。在这里我要引荐一下艾德思奇,艾德思奇是一家老牌的互联网服务公司,以大数据挖掘和精准营销著称,业务包含搜索引擎营销服务、搜索引擎优化服务、社交媒体营销、营销广告创意等服务。

阿里搜索技术 在AI路上走了多远

阿里妹导读:以深度学习为代表的人工智能在图像、语音和NLP领域带来了突破性的进展,在信息检索和个性化领域近几年也有不少公开文献,比如wide& deep实现了深度模型和浅层模型的结合,dssm用于计算语义相关性,deepfm增加了特征组合的能力,deep CF用深度学习实现协同过滤,rnn recommender 采用行为序列预估实现个性化推荐等。

工业级的信息检索或个性化系统是一个复杂的系统工程,深度学习的工业级应用需要具备三个条件:强大的系统计算能力,优秀的模型设计能力和合适的应用场景。今天,我们邀请了阿里搜索事业部资深算法专家三桐,介绍阿里在深度学习系统、深度学习算法和搜索应用落地的进展和思考,希望对大家有所启发。

深度学习在搜索的应用概括起来包括4个方面:

首先是系统:强大的深度学习训练平台和在线预测系统是深度学习应用的必要条件,目前我们的离线深度学习框架、在线深度学习框架和在线预测框架统一到tf,并实现了日志处理,特征抽取,模型训练和在线服务部署端到端的流程,极大提升了算法迭代效率;

其次是搜索应用:包括智能交互,语义搜索,智能匹配和智能决策四个技术方向,这四个方向的协同创新实现了搜索全链路的深度学习技术升级,并具备从传统的单场景单目标优化到多场景多目标联合优化的能力;

再次是在性能优化上做的工作:包括模型压缩、量化、低秩分解再到二值网络,大量的技术调研和论证,为未来提高深度模型预测性能和软硬件协同优化做了很好的技术铺垫;

最后是排序平台化:实现了PC商品搜索、无线商品搜索、店铺内搜索搜索和店铺搜索的搜索服务统一,通过特征和模型复用,实现了多条业务线技术的快速升级。下面我会简要的概括下在四个方向上取得的主要进展和背后的思考。

下面是搜索系统和算法的简图。系统包括:

搜索系统和算法简图

a. 离线数据平台ODPS,负责离线日志join、特征抽取和离线模型预估产出排序特征,时效性不强的特征都是通过离线数据平台产出的,比如用户性别标签,商品关键字等;

b. 离线机器学习平台PAI,底层是主流的parameter server和TF深度学习框架,平台实现了大部分机器学习算法模型的并行训练和预测,在搜索应用中主要作用是离线模型训练产出离线排序特征模型;

c. 流式计算和在线学习平台 Porsche,流式计算是基于blink负责实时日志解析和特征join生成实时排序特征,在线学习和离线学习底层框架可以相同,差别主要是依赖数据源和部分优化方法不同,由于用户行为和市场环境变化快,流式计算和在线学习在搜索应用非常广泛,并积累了不少在线学习和强化学习算法;

d. 在线服务平台,包括引擎、排序服务和搜索平台组成,负责在线的服务分发、索引查询、排序服务和结果合并等功能,搜索的排序策略、相关性、个性化等模型主要通过在线预测服务生效。经过多年发展我们已经具备了非常完善的商品搜索排序算法体系,包括知识图谱、分词、tagging、类目预测、意图预测、拼写纠错、query 推荐、query 语义改写、相关性、商品标签、商品质量、店铺分层、用户profile、用户偏好、用户感知、召回策略、个性化模型、多样性策略、异构服务混排策略、多目标联合优化策略、多场景联合排序策略等,并平台化的方式赋能相关业务团队。

系统进展:机器学习平台和在线预测平台

机器学习平台。搜索训练样本主要来自用户行为,由于用户行为是流式数据,适合做在线深度学习,但当模型参数非常庞大需要海量的样本时在线学习需要很长的时间才能收敛,这时一般是先做离线预训练再结合增量或在线学习,另外有些模型离线预训练后在线只需要对接近输出层的网络做fine-tuning。搜索在实际应用的有离线机器学习平台PAI和在线机器学习平台Porsche,两个平台深度学习框架目前都统一到了tf-pai, tf-pai 对原生tf做了一些优化,比如底层通讯,稀疏参数存储、优化方法、GPU显存优化等,比原生tf训练深度有较大的提升,训练上千亿样本和上百亿参数的深度模型毫无压力。

虽然Porsche和PAI都支持GPU,但在搜索应用中CPU依然是主流,GPU应用比较少,原因主要是个性化相对图像或语音简单,特征抽取网络比较浅,维度相对较低,GPU的稠密矩阵计算能力得不到充分发挥,同时离在线混布后流量低谷期间腾出了大量的在线服务闲置CPU,把临时闲置的CPU利用起来做深度学习训练是一个非常好的思路。

在线预估RTP,搜索排序算分服务。由于每次搜索请求有上千个商品需要计算排序分数,深度模型应用对RTP服务的压力是非常大的,RTP通过采用异构计算,计算算子化和模型分片等方式解决了深度模型inference计算和存储问题,深度模型用GPU,浅层模型用CPU,今年双11期间搜索RTP服务用到了550张GPU卡。另外,RTP还实现了离线/在线训练模型/数据和在线预测服务部署的无缝衔接,算法训练好的模型或数据可以很轻松的部署都在线服务,提升了算法迭代效率。

算法:智能交互、语义搜索、智能匹配和搜索策略四个方向

智能交互。商品搜索就是带交互的商品推荐,用户通过关键字输入搜索意图,引擎返回和搜索意图匹配的个性化推荐结果,好的交互技术能够帮助到用户更好的使用搜索引擎,目前搜索的交互主要是主动关键字输入和关键字推荐,比如搜索框中的默认查询词和搜索结果中的文字链等,推荐引擎根据用户搜索历史、上下文、行为和状态推荐关键字。

和商品推荐的区别是,关键字推荐是搜索链路的中间环节,关键字推荐的收益除了关键字的点击行为外,还需要考虑对整个购物链路的影响,包括在推荐关键字的后续行为中是否有商品点击、加购和成交或跳转到另外一个关键字的后继行为,这是一个典型的强化学习问题,action 是推荐的关键字候选集合,状态是用户当前搜索关键词、上下文等,收益是搜索引导的成交。

转自:阿里技术

完整内容请点击“完整内容”

10分钟 选出你的新品搜索核心词 淘宝搜索必读

在新品准备期内,当我们测完款、看完市场数据后,就要确定新品核心词了,选出好的款加对的词,新品就成功一半了,如果词没选对,你的款基本很难做起来,因为词决定了竞争环境和搜索人群,一个刚上新的产品,本身就很弱,如果把它放在一个极其惨烈的竞争环境里,怎么可能做起来,而且,如果初期词选错,中期补救的成本也很高,所以选词务必慎重,当然,这里说的都是大类目。

1. 好词的标准有以下几点,首先,必须是包含属性的精准词,第二,精准的属性词必须要有很大流量,第三,是大家都在竞争的词。

2. 现在选词基本上就2个地方,第一个是生意参谋的市场洞察,生意参谋的市场有一个搜索分析,把你的关键词、你想搜的核心词输入进去,就会给你一大堆的相关词的搜索。

3. 第二个是生意参谋的竞店分析,就是要找到竞争对手,通过生意参谋去看对手的成交词以及竞争对手的流量词,这也是要占据的关键词之一。

4. 注意,你只能看它的日粒度,就是只能根据每一天来看,不能看最近七天成交了多少关键词,所以需要一天一天去翻。

5. 对于大类目来讲,在初期选词的时候,要选10个左右的关键词,这10个关键词里要有2-3个主打的核心词,这些主打核心词的搜索人气必须过半,而且必须要带属性。

6. 单量越多,需要的词也越多,如果在前两周,你自己操作的单量越多,需要的词就越多,如果本来就没多少单量,就不需要太多词。

7. 这些关键词的核心就是要精准,在选词的过程中,不要选品类词,因为品类词通常是不精准的。

8. 举例,马丁靴是一个品类词,但是一点都不精准,它是男款还是女款的?是中筒还是高筒的?有没有加绒?这些都不知道,如果初期就去做品类词,一个是竞争非常惨烈,另一个是完全不精准。

9. 对于一个新上新的产品来讲,本来人群标就比较弱,再上了一个不精准的关键词,那就完蛋了,所以这种词不要操作,而且品类词通常已经包含在核心词里了,可以让系统自动识别。

10. 也就是说,当我们成交“马丁靴男”或者“马丁靴长筒”的时候,马丁靴本身已经积累权重了,系统会根据你这个产品的标签,以及根据进来访客的整个反馈数据,自动识别是什么样的马丁靴。

11. 另一个是人群要精准,其实关键词是有人群的,什么叫关键词自带人群,就是不同的人会搜索不同的关键词。

12. 举例一,会搜“大码连衣裙”的一定是个胖子,而且性别一定是女生。举例二,会搜“运动服学院风”的一定是客单价比较低的学生群体,

13. 关键词的人群,还会带更细维度的人群标签,举例,天冷了北方人会搜秋裤,南方人会搜棉裤,不同地方搜索关键词的词叫法是不一样的,所以关键词第一是带地域的。

14. 第二,关键词带消费层级,如果我搜iPhone手机壳,我的人群标签的消费层级应该会比较高一点,如果我搜苹果手机壳,那它的消费层级可能会低一点,如果搜小米手机壳,消费层级可能会更低。

15. 第三,还会有年龄区别,90后称某样东西,可能是另一种叫法,因为语言本身是不一样的,比如70后可能完全听不懂什么叫做二次元,所以不同的关键词还带年龄标签。

声明:本消息来源于网络,如有侵权请联系博主删除!!!

将应用机器学习转化为求解搜索问题

由于针对某一特定问题设计一套完美的智能系统难以控制,所以机器学习的实际应用极具挑战。

实际生产中并没有完全适用于你的问题的训练集和算法,一切都等你自己去发现。

我们较好将机器学习应用看成针对特定项目的已知知识和可用资源寻找输入到输出的较佳映射的搜索问题。

在本文中,你将会学到如何将机器学习应用于搜索问题。

读完本文,你将知道:

应用机器学习就是优化/逼近一个从输入到输出的未知基础映射函数的问题。

数据集和算法的选择等设计决策会缩小最终可能选择的映射函数的范围。

将机器学习概念化为搜索问题的思想有助于合理使用模型集成、对算法进行抽样检查以及理解算法的学习过程。

我们开始吧。

概述

本文共计 5 个部分;分别是:

1. 函数逼近问题

2. 搜索问题的近似函数

3. 数据集的选择

4. 算法的选择

5. 将机器学习转化为搜索问题的意义

函数逼近问题

机器学习的应用就是智能系统解决特定可学习问题的发展。

可学习问题的主要特征包括由输入数据和输出数据的集合以及两者之间的未知的相关关系。

可学习系统的目标是学习输入和输出数据之间的通用映射,以便可以对从输出变量未知的领域抽取的新实例进行准确预测。

在统计学习中,从机器学习的统计角度来看,该问题可被定义对给定输入数据(X)和相关输出数据(y)的映射函数(f)的学习。

我们有一个 X 和 y 的例子,而且也会努力想出一个逼近 f 的函数,例如 *fprime,*如此我们以后就可以基于新样本 (Xhat) 得出新的预测 (yhat)。

如此一来,我们可以将应用机器学习问题看作一个寻找近似函数的问题。

学习到的映射是近似的。

设计和开发机器学习系统是一个找到将输入变量映射到输出变量的未知基础函数的有用近似的问题。

我们完全不知道这个函数的形式,因为如果知道的话,还要机器学习系统干嘛?我们完全可以直接求解。

因为我们不知道真正的函数是什么,我们必须去逼近它。这意味着我们不知道,也许永远不会知道机器学习系统的近似函数与真实映射函数的接近程度。

搜索问题的近似函数

找到一个足以适合我们的要求的且逼近真实构成函数的函数。

学习过程中会遇到很多噪音导致的错误,并因此得到没什么用的的的映射函数。例如:

机器学习问题的框架选择

用于训练的资料选择

预处理数据集的方法选择

预测模型的表征形式选择

让模型拟合训练数据的合适学习算法的选择

评测模型的预测能力的性能指标的选择

还有很多。

你可以看到在机器学习系统的发展历程中有很多决策点,在此之前它们的答案都是未知的。

对于一个机器学习问题对应的所有可能解决方案,我们可以把它看作一个大的搜索空间。其中的每一个决策点都可以缩小搜索范围。

从输入到输出的所有可能的映射函数的搜索空间。

例如,如果某个问题就是预测花的种类,那么我们可以通过如下步骤从海量解决方案中筛选出一个可能的机器学习系统:

选择将问题设定为预测物种的类别标签,例如,分类。

选择给定物种及其相关子类的花的分辨指标。

选择在一个特定的苗圃对花进行测量,以收集训练数据。

选择一个决策树模型,以便整个预测模型可以阐述给项目经理听。

选择一个 CART 算法拟合决策树模型。

选择分类准确率标准评估模型的预测能力。

等等。

在一个机器学习系统的完善过程中你可能看到很多决策都有自然的层级结构。其中每一个决策都可以缩小我们将要建造的学习系统的范围。

这个缩小过程引入了重要的倾向性,有意识地选择可能的学习系统的一个子集而非其它子集,目的是得到我们可以在实践中使用的有用映射函数。这种倾向既适用于问题框架的顶层,也适用于低层,如机器学习算法或算法配置的选择。

选择数据集

选择学习问题的框架和用于训练系统的数据是开发机器学习系统的一个重要因素。

你不能使用所有的数据:所有的输入和输出都成对儿出现。如果你这样做了,就不需要一个预测模型预测新输入的输出值了。

你需要一些输入-输出对数据集。如果没有,你拿什么训练预测模型?

但是你可能有大量的数据,你只需挑选部分用于训练。亦或你可以随意生成大量数据,的挑战就是生成或收集的数据的种类和数量。

你选择的用来建立学习系统模型的数据必须充分捕获可用数据的输入和输出数据之间的关系,以及该模型将来可能预测的数据之间的关系。

从一个问题的所有数据中选择训练数据

选择算法

你必须选择模型的表征形式以及用于拟合训练数据的算法。这同样是开发机器学习系统中的一个重要因素。

从一个问题的所有可能算法中选择一个算法

这个决策通常被简化为算法的选择,尽管项目经理经常对项目追加要求,例如模型能够解释预测,而预测又反过来对最终模型表示形式施加约束,最后反过来影响你可以搜索的映射范围。

选择一个从输入到输出的映射函数的逼近函数的影响

将机器学习转为搜索问题的意义

这种将学习系统转为搜索问题的概念化有助于清楚地表明应用机器学习中的许多相关问题。

这节有以下几点。

迭代学习算法

用于学习映射关系的算法将会强加更多约束,随着算法配置的选定,它将控制候选映射函数的空间指导拟合模型的方式(例如,迭代学习的机器学习算法)

此处,我们可以看出通过机器学习算法从训练集中学到的信息可以对学习系统可能的映射函数空间进行有效指导,较好是挑选的映射函数越来越好。(例如,爬山算法)

学习算法在训练集上迭代更新的影响

这为优化算法在机器学习算法中的核心作用提供了一个概念上的理论基础,以较大限度地获取特定训练数据的模型表征。

模型集成的原理

我们同样发现在所有可能的函数映射上的不同位置可以得到不同的模型表征,这些模型自然也都表现出不同的预测行为(例如,不相关的预测错误)。

这就使得整合不同的但是有效的预测模型的方法在概念上可行。

组合多个最终模型进行预测的解释

抽样检查的原理

不同表征方式的不同算法可能在函数映射空间中的不同位置开始,并以不同的方式指导搜索。

如果都是在选定框架和良好的数据集下的约束空间内进行搜索的,那么大部分的算法都可能会发现好的或类似的映射函数。

我们可以看到一个好的框架以及精心挑选的数据集是如何找出候选函数映射空间的,这可以通过一套强大的机器学习算法找到。

这为在给定的机器学习问题上检查一组算法,并进一步简化最有希望的算法或选择最节省的解决方案(例如奥卡姆剃刀)提供了理论基础。

文章来源:机器之心

《黄美灵的Spark ML机器学习实战》通过该课程的学习,同学们可以全面掌握Spark ML机器学习,进而能够在实际工作中进行ML的应用开发和定制开发。且该课程优异毕业生均可获得老师内推机会,职位:数据挖掘工程师,就职企业:久邦数码、唯品会、腾讯等。掌握技术,高薪就业,课程等待你的加入!

这些京东搜索排序规则你知道吗

文 | 平台规则

京东搜索介绍

随着京东商品数量的增长,京东搜索怎样排序?如何做可以让商品得到更多曝光机会是各个商家特别关心的事情。与其他电商搜索类似,京东搜索排序就是将匹配关键词的商品按照对消费者需求满足程度依次展示,目的是帮助消费者快速方便地找到所需商品。此外,消费者还可以按照一定条件对商品进行精确筛选。

下面,我们将从以下几个方面详细介绍京东搜索排序。

1、排序算法

消费者输入关键词进行搜索的时候,系统会根据消费者输入的关键词去和系统中的商品做匹配,并根据商品匹配程度和其他相关因素对商品进行排序最后将结果展示给消费者

京东搜索排序考虑的因素如下:

1.1文本相关性

文本相关性即商品的文本描述信息(包括:商品标题、类目名称、品牌名、图书类商品还有作者、出版社等)和搜索关键词的是否相关或匹配。

文本相关性的计算我们采用评分机制,即跟消费者搜索词和商品的匹配程度给予不同的评分,通过评分来判断商品和搜索词的匹配程度。其中商品标题和关键词的相关度最为重要。

商品标题录入注意事项

商家为了提高自己商品的搜索曝光率,在商品名称中堆砌和自身商品完全无关的关键词,致使商品标题不规范,不仅会影响该商品的文本相关性得分,还会降低消费者体验。录入标题需要考虑以下原则:1.消费者搜索商品时常用搜索词;2.尽量简洁明了;3.名称中不得有错别字。被发现存在文本作弊的商品在搜索系统中将被屏蔽或做降权处理。

举例:

反面例子:金吉家广博窄书柜抽屉门板随意增减间厅柜可延长隔断不靠墙也稳定正反面通用创意组合书柜5X4列橡木色;

消费者根本无法找到商品标题重点,名称越短文本相关性越高,无须写乱七八糟的关键字

正面例子:乐爱家创意书柜收纳储物柜LF-W-1030细条棕橡。

1.2类目

京东搜索因子中,商品的所在类目(商品的分类)是否合理将影响到商品的排序结果。在京东,所有商品须放置在具体的分类下,例如iphone手机放在“手机”分类下,而iphone充电器则放在“苹果配件”分类下。在放置商品类目的时候,一定要注意,以防放置在不恰当的类目中,对商品排序造成负面影响。

关键词与类目也存在相关性,关键词与不同类目的相关性不同,通过搜索系统综合计算所得。关键词搜索排序规则是多个因素综合影响的结果,所以在其他排名因素相同的情况下,类目影响排序的综合得分。

综上所述,放置或优化商品类目时,需确保放于正确且合理类目,才可保证商品在消费者精准搜索词下得到有效曝光。

1.3商品人气

商品人气不仅影响商品的销量,还影响消费者对该商品所属店铺的信任度和认可度。

影响商品人气的因素如下:

a.商品销量

即近期商品销量,其中不同时间的销量进行加权计算;虚假交易销量不计算在内(虚假销量查出后会依平台相关规则处理)。

b.销售额

为防止低质量商品占用重要展示位置,影响消费者体验,销售额作为其中一个因素参与商品人气分计算。

c.消费者评论

消费者评论反映消费者对商品的满意程度;商品质量和好评率成正比。

d.商品属性

商品属性是消费者了解商品的重要渠道,商品属性信息和商品不匹配会降低消费者体验,商品属性信息和商品的一致性是影响商品排名的另一个重要因素。

除上述因素外,消费者关注度等也是影响商品人气的因素。另外,在计算商品人气分时所使用的数据都进行了反作弊处理,对于反作弊比例多的商品会有降权。

1.4用户搜索反馈

消费者搜索查询词后点击或购买商品的行为在消费者搜索反馈系统中计为该查询词与该商品的一次点击或购买数据。消费者搜索反馈数据反应了消费者对搜索结果的满意度,同时反应了对商品的满意度。

反馈数据包括:某查询词结果中商品的点击量和下单量,消费者通过搜索进入商品单品页的平均时间,商品的搜索点击转化率。对于部分商家恶意刷搜索点击和下单的商品,系统将其视为作弊商品,在排序中进行降权处罚。同时反馈数据也会剔除这些作弊数据。

1.5 京东平台风向标

为了促进店铺提升综合服务能力,京东平台通过京东大数据建模算法计算出京东平台风向标模型。商家的京东平台风向标的表现优劣将影响该商家店铺中的商品在京东搜索的排序结果,这将为京东商家和消费者构建更加优质的生态体系。

影响京东平台风向标的具体因素如下:

1.5.1 用户评价

用户评价是指消费者对店铺的商品质量评价、卖家服务态度评价、物流及发货评价、商品描述评价、退换货评价。消费者来到店铺购物时,需要知道该店铺的表现情况,而过去在该店购物过用户的评价,是值得消费者信赖的参考。

1.5.2 物流履约

物流履约是指店铺内订单的48小时揽件及时率和隔日达订单占比。消费者下单成功后,消费者能查到订单对应快递公司揽件跟踪信息的速度,以及消费者下单成功后72小时内能够收到商品的速度(即隔日达)。

1.5.3 特色产品

特色产品是指京东放心购和京东电子面单。京东放心购是京东平台服务品牌的标识,是对消费者的保障。如开通京东放心购会提升京东平台风向标排名。

京东电子面单使用占比是店铺使用京东电子面单发货的单量占比,无论京配的京东电子面单还是其他快递使用的京东电子面单都计算在内,使用京东电子面单客户信息更安全,在同行使用占比排名靠前会提升京东平台风向标排名。

1.5.4 转化能力

转化能力是指店铺短视频能力,随着碎片化的时代来临,快速阅读成了客户的购物习惯,而短视频的呈现方式比图片和文字的呈现方式更快的促进消费者进行购物决策。店铺短视频能力是综合计算店铺主图视频SKU覆盖率和店铺整体视频质量等级后得出。视频质量等级由视频播放次数、主图视频播放率(视频播放次数/视频曝光次数即商详UV/PV)、视频播放时长、用户完成度(用户平均观看时长/该视频总时长)计算得出。同行表现排名靠前的店铺会提升京东平台风向标排名。

1.5.5 成长指数

即店龄,指店铺最新开店时间到计算店龄时间的时长,如店铺中途关店则关店前的时间不做计算。开店时长越长的店铺优势越大,会提升京东平台风向标排名。

1.5.6 客服及售后

客服及售后是指售后审核及处理时长、退换货返修率、交易纠纷率、咚咚30秒应答率、咚咚平均响应时长。

1.5.6.1 售后审核及处理时长:消费者对售后处理结果及进度较关注,商家的处理时效会直接影响消费者体验。

1.5.6.2 退换货返修率:退换货返修率为一定周期内,实际发生退换货返修的服务单数在该周期内订单完成的商品件数占比。

1.5.6.3交易纠纷率:这部分数据可反映商家责任下的交易纠纷单量的占比,结果可参考性强。

1.5.6.4咚咚30秒应答率:顾客进入队列后,人工回复在30秒内的咨询量占比,响应越快,客户流失越少。

1.5.6.5咚咚平均响应时长:客服人工回复的消息与顾客消息之间时间差的均值

京东平台风向标详情了解可查看《京东开放平台风向标解读》

链接:2019/20190426A/F0113548.aspx

1.6作弊

作弊指通过非正常手段快速提升商品在搜索结果的排序。作弊行为会严重影响消费者的搜索体验,对通过提升自身服务质量的商品或者商家是不公平的。为减少作弊行为对搜索的不良影响,被判定为作弊的商品将根据其作弊程度进行降权或屏蔽处理,商家可在被违规处理之时起7天内通过线上违规申诉入口提交申诉申请。目前京东搜索查询商家存在的作弊行为有:商品标题关键词堆砌、虚假交易、重复铺货、错放类目、更换商品等。具体的评判规则见附录一。商家的商品如果存在搜索作弊情况,该商家的违规行为京东会根据《京东开放平台商家积分管理规则》扣除相应的积分,商家积分过低会影响该商家的商品人气分、店铺服务质量分,从而影响商家商品搜索排序情况。

《京东开放平台商家积分管理规则》

链接:2019/20190426A/F0113549.aspx

1.7个性化排序

为满足各类消费者在同一搜索词的不同需求,京东搜索已上线排序的个性化服务,实现搜索千人千面。个性化上线后,同一搜索词,不同的消费者可看到不同的搜索结果。

消费者行为个性化是指把消费者的浏览数据、购买数据使用到搜索排序中,当消费者用搜索时,可以快捷方便的找到这些商品。随后消费者性别模型、消费者购买力模型等数据也会被应用到搜索排序中,使排序多样化,满足不同消费者的不同搜索需求。

另外,为减少无货商品对搜索体验的影响,搜索结果中该消费者所在地区无货的商品在排序中将被做降权处理。

个性化搜索服务会继续调优,增加买卖匹配的精准性,提升消费者搜索体验的同时,为商家带来更精准流量。

2、非默认排序

非默认排序指按照价格、销量、评论、上架时间等单一维度排序方式。非默认排序与前文中提到的关键词与商品类目的相关性有很大的关系。

非默认排序的实现是根据消费者输入的搜索词,搜索算法系统会计算出该商品的相关类目。使用价格&销量&评论等非默认排序时,系统将相关性较差的商品类目过滤,不予以展示。

如果在非默认排序中,采销或商家发现自己的商品未展示,请确认自己商品所处的分类是否合理以及商品标题是否包含过多无用信息。对于错放类目等作弊行为,系统将进行降权或屏蔽处理。如:把沙发坐垫的分类设置为“精品沙发”或“休闲沙发”。

3、搜索结果页展示

搜索结果页针对不同类目设计展示样式,垂直化探索不同类目商品的最佳营销展示。目前京东搜索垂直化展示已包括服饰鞋帽等类商品的主从合并展示和图书类商品列表展示。

a.服饰鞋帽类主从商品合并展示

服饰鞋帽类商品主从合并展示是指合并同种商品展示,以增大其他商品的曝光机会,同时方便消费者快速浏览同种商品的不同款式。主从合并的策略是根据商品的主商品编号进行合并。

举例:由于同款商品不同颜色会默认只展示一个;

b.图书类列表展示

图书类商品列表展示增加商品信息量展示,以满足消费者搜索图书类商品的浏览习惯。

4、属性筛选规则

搜索消费者经常使用属性筛选功能进一步缩小搜索意图,丰富、准确、体验好的属性筛选给消费者带来价值。

例子:搜“T恤”,男装的三级类目T恤,女装的三级类目T恤都是相关性高的类目,则搜索后默认属性筛选区将对男装T恤、女装T恤等高相关性类目和所带属性进行并集展示,如下:

点击男装T恤类目后的属性区:

击女装T恤类目后的属性区:

京东有权视实际情况调整搜索排序白皮书的内容,并随时向商家公布更新的内容,如商家对内容有异议,请暂停使用相应服务;如商家继续使用本服务,则视为商家接受变更内容,商家请应予以遵守。