搜索战争暗流涌动

图片来源@视觉中国

钛媒体注:本文来自微信公众号商业与生活(ID: xiaopeizhu8),作者:朱晓培 ,钛媒体经授权发布。

今日头条进军搜索的消息,让人们再次注意到了搜索市场的变化。

PC时代向移动互联网时代的转变,改变了众多领域的格局,包括资讯、电商、社交和游戏和视频。今日头条凭借资讯快速崛起,更让朱啸虎感慨,不能低估移动端,很多事情在PC端是很小的,在移动端却是很大的事情。

但这种改变,似乎独独落下了搜索。

自从2003年开始,百度逐渐取得搜索市场的主宰权后,虽然谷歌、中搜、雅虎、搜狐、新浪、网易、360、神马搜索等公司相继发起围攻,几年下来,百度的地位却没有被动摇过。StatCounter Global Stats发布的2019年1月数据显示,在全国的搜索引擎市场中,百度占比71.4%。

百度称霸搜索市场已久,但也不是无懈可击。尤其是几年来相继爆发的医疗竞价排名事件,消耗了人们对百度搜索的好感。只不过,市场上一直没能出现更好的产品。

在PC时代,搜索变现方式有限。单纯的硬性广告如插屏与弹出广告等会影响用户体验,而竞价排名的马太效应又十分明显,导致资金向百度集中,其他围攻者难以盈利。在移动互联网初期,包括百度在内的搜索应用也都没有找到适用于手机屏幕的商业模式。

但是,今天的市场已经发生了一些质的变化。

从广告市场的角度而言,信息流因为个性化的投放方式和自然原生内容则减少了用户对于广告的抵触心理,被众多广告主认可,也为各平台提供了变现的新可能。

从内容的角度来看,微信公号、今日头条、甚至淘宝等,各个平台在过去几年都积累下了丰富的内容,并形成了自己的内容生长土壤,它们也都需要更智能的搜索应用,帮助用户快速的找到有效的信息。

简单的说,与过去相比,各个平台做搜索的动力除了赚钱外,现在多了一个内驱力,就是产品本身就需要一个服务于用户的搜索功能。而这,让搜索市场增加了更多的可能性。

新挑战者

百度搜索的最新出现的一个对手是今日头条。3月12日,今日头条搜索开始开屏广告推广“头条全网搜索”,广告词是“搜罗全网好结果”。

据了解,今日头条母公司字节跳动(简称头条)在2017年初就开始组建搜索部门。后来,前360搜索产品负责人吴凯又加盟头条担任搜索业务的负责人。资料显示,吴凯离开360后曾加入一家AI公司奇鱼担任CTO,负责SaaS领域“移动办公+人工智能”方向的探索和研究。

今年初开始,头条搜索进一步加速了节奏。有传闻称,他们挖走了很多360搜索和搜狗搜索甚至百度的员工。

在某招聘网站上,可以看到头条发布了众多与搜索相关的职位,包括搜索架构高级工程师、搜索产品经理、搜索算法工程师、搜索后端研发工程师等。在搜索架构高级工程师的岗位描述中写道:参与bytedance搜索引擎研发工作,设计开发千亿级网页搜索的数据流系统、分布式建库系统,设计开发千亿级网页搜索的检索系统等。值得注意的是,在国内,此前只有百度描述自己是“超过千亿的中文网页数据库”。

目前看来,头条搜索并没有单独孵化一个APP或者网页搜索引擎,而是放在了今日头条内部——在今日头条app或者网页版的搜索框内进行搜索,会显示来自站外的信息。相当于,原有的站内搜索,蜕变成了一个通用的搜索引擎

这种做法与微信搜索相似。

微信搜索也是在微信内进行,除了对话页面的搜索框外,还包括搜一搜、看一看、微信指数、好看、表情搜索等功能都是嵌入在微信上的产品,但搜索出来的内容却不再局限于微信内部的信息,而是包括了站外信息、搜狗百科等。

公开资料显示,2017年4月,微信架构调整,成立搜索应用部,负责微信的搜索业务、阅读推荐业务、AI技术研究及落地、微信数据平台建设和数据能力的应用。周颢担任微信事业群搜索应用部负责人,直接向张小龙汇报。

内容沉淀多了,就可以做搜索,这是水到渠成的事情。这也是今天的搜索市场不同于以往的地方。

中国搜索市场多次爆发战争,包括百度大战谷歌,360暗战百度,王小川再次开战等。

在这些大战争,参战方都试图把搜索作为主业直接对抗百度。但是,它们自身生产的内容只占很少的部分,更多的扮演“中间商”和桥梁的作用,通过搜索把全网中合适的内容推荐给用户,再用广告的方式流量变现。而由于马太效应——更大的流量吸引更多的广告客户,更多的客户制造更多的内容,因此,百度每次都能稳中取胜。

但,今天的内容市场的悄然变化,新的参与者不再是把搜索作为自己的主业直接去对抗百度。在它们的规划中,搜索更像是一个服务于自己的内容和用户的生态产品。

而边缘创新的理论就是自下而上的,总是在不经意的边缘地方出现的创新往往会制造出新的局面。而各个平台的海量内容,也增加了搜索市场的不确定性。

内容对搜索的影响力,可以从搜狗身上看出些端倪。上市前夕,它在招股书写下一段话:有微信内容池的搜索引擎。在那之后,因为微信百科和问答的接入,搜狗搜索确实得到了提升。

而阿里巴巴旗下的神马搜索,依托自己的生态,也已经成为国内搜索市场的一股重要力量。

被低估的搜索市场

进入移动时代后,人们似乎默认了一个观点:搜索和浏览器作为入口的地位已经大大降低。

但事实可能并不是这样。

数据显示,搜索用户的规模还在上升。CNNIC的数据显示,截至2018年12月,我国搜索引擎用户规模达6.81亿,规模较2017年底增加了4176万。而手机搜索用户规模达6.54亿,较2017年底增加2998万。

而且,搜索依旧是大部分人们每天都会使用到的功能。中国社会科学院社会学研究发布的《AI如何创造社会价值?2018百度社会价值报告》显示:到2018年12月前,百度搜索日均响应搜索次数60亿+次,相当于每个中国人每日搜索4.3次。

一位创业者曾形容自己,“但凡有点好奇心的东西,都会忍不住去搜索来一看看”。

而从中国与全球的数据对比,也可以估算出,中国的搜索市场仍有很大的空间。

statcounter的一份报告显示,在中国,2018的搜索引擎占有率,百度:70.3%,神马搜索:15.62%,搜狗:4.74%。但在全球,谷歌92%,百度仅为1.01%。这样可以换算出来,中国的搜索市场仅为全球的1.5%左右。而中国的互联网用户约占全球的20%。

搜索依旧为百度、谷歌创造者巨大的收益。财报显示,百度2018年Q4的搜索+交易服务“百度核心”同比增长14%至205亿元。而谷歌2018年Q4搜索和YouTube广告销售额增长20%至267.5亿美元。

内容的增长,尤其是视频内容的增长,为搜索的增长提供了肥沃的土壤。在电话分析师会议中,李彦宏提到,“不光是我们自己的端口,包括第三方端口,我们都可以看到视频搜索的增长。我们也会在技术上继续研发,以致今后可以更高效地分析视频内容,以便用户可以更容易地找到相关的视频。”

而在上述提到的某招聘平台上,检索“搜索”相关的职位,招聘需求最多的,除了百度、微信、头条外,还会发现一家视频平台,快手。另外一家招聘需求比较多的则是小米。

在信息流产品的推动下,搜索引擎日活跃用户数、每用户访问时长都呈现增长趋势,也带了来更大的商业机会。Global Ad Trends report(全球广告趋势报告)显示,2018年的全年移动搜索广告市场超过627亿美元,这一数字从2015年到2018年翻了两倍。

虽然在通稿中,百度刻意强调AI、自动驾驶,而不是搜索的业务。但是,在分析师电话会议中,百度CFO余正钧提到,2019年的首要任务是增加有机搜索流量。李彦宏在谈及春节红包的意义时也说,“这其中的很多用户意识到百度APP是不同于在第三方浏览器上运行的百度搜索的。”“之前用户总是上第三方浏览器去使用百度搜索,现在呢,我们有了自己的百度APP,可以提供更强大、更安全的搜索和新闻推送功能。”

还有一个消息显示谷歌可能仍对中国的搜索市场抱有野心。有人发现,谷歌依然计划在中国推出代号为“蜻蜓”的定制搜索引擎。这种产品曾在去年引起了公司内部的广泛争议,后来首席执行官桑达· 要求取消这个项目。但是,去年12月与“蜻蜓”项目相关的代码发生了约500个改动,在今年1月和2 月则有超过400个改动。另一份资料显示,还有约100个员工在“蜻蜓”项目的预算之下。

不顾,Google发言人否认了这一说法。

搜索的窘境

互联网世界里,信息浩如烟海,良莠不齐、真伪莫辨。好的搜索产品是很多人获取有效信息的一个重要渠道。

但是,在号称AI技术越来越普及的当下,检索出来的信息却越来越宛若智障。

一方面,移动端的搜索需求仍未被满足。

在移动端,独立的app就像一个个的信息孤岛,很多优质内容很难被移动端用户搜索和使用。有数据显示,各应用商店里大概有300万个app,但在现代人手机上平均安装量只有30个。在传统的应用模式,信息被困在了各自的黑盒子之中,而已有的搜索模式很难穿越这些黑盒子。

在刚过去的微信公开课上,张小龙就表示,小程序今年的一个重点就是,“搜索的直达”。他说,“其实搜索一直应该是小程序的一个主要流量来源,并且小程序和APP的一个很大不同,APP是一个个的信息孤岛,互相之间没法交换信息。但是小程序是可以被系统统一检索到,是可以直接搜索到小程序里面的内容的。”

另一方面,网页和信息的检索体验也非常糟糕。在做一些搜索时,呈现在人们面前的,往往不是最需要的内容,而是一些无关的垃圾信息和广告。

以前些日子非常火的“连衣裙”事件为例。一个用户此时搜索“连衣裙”的目的,多半有两个:一个是看某宝给了自己什么样的定价,是高于还是低于128元。另一个多半是想看看,网站是否如网上传言在偷偷给用户标价。但是,我们随便使用一个搜索引擎,在综合类下,前两页几乎都是广告,差别只是有些是电商广告,有些是厂家广告,有些则是自己站内的信息流广告

为什么搜索技术号称越来越智能,搜索的结果却离人们的目的越来越远。究其原因,不是技术的问题,而是利益的权衡。毕竟,移动搜索市场的背后,包括多种变现方式,搜索排名、关键词广告、竞价、展示广告及周边增值服务等。

过去,搜索引擎有一个“竞价排名”的困境——是给用户优先展示最需要的内容,还是给用户展示那个不需要但广告主付费最多的内容。大部分情况下,搜索引擎都选择了后者。

今天,搜索应用依然面临着一个抉择困境——是给用户优先展示最需要的内容?还展示更多的信息流广告?或者是给用户无用内容,但可以制造更多的点击次数?

对于用户来说,最好的体验显然是,搜索一下,第一条就是自己想要的内容,看完即走。

Google未上市之前,创始人拉里·佩奇曾说过,自己希望用户“尽快离开谷歌,到该去的地方”。这或许就是搜索引擎的初衷,作为信息索引的中转站,连接用户和内容站的一个工具或者说平台,互联网海量信息的一大入口。

为了节省用户时间,避免点击链接的繁琐程序,谷歌还尝试把“搜索—点击—答案”变成“搜索—答案”。2014年《华尔街日报》曾撰文称,搜索引擎正在试图把自己变成搜索目的地,为不断增多的各种谷歌服务提供了一个出口和渠道。比如,以前用户在谷歌中搜索一家酒店时,会检索到10个指向各大在线旅行社和酒店运营商的文本链接。但现在,搜索结果的第一页展示的却是评价、照片和酒店客房报价。

当时的百度也上线了极简版首页。虽然页面看起来是更简洁,但内容更多了,这也是百度“框计算”技术与应用的一次升级。比如在其首页搜索某首歌曲,用户不必点开页面,就可以在搜索结果页直接听歌,并有歌词、下载等智能服务。

这种“一次搜索,多种选择,全面答案”的搜索方式,在当时还引起了一些内容站的担心,会减少从搜索引擎获取流量的可能。但是,这种担心很快被移动时代的新烦恼取代了。

各个平台为内容创作者提供了新的土壤,今天,全网分发几乎成了内容创作者的共识。但是,搜索用户曾经体验过的边界线性却逐渐消失了。

因为,搜索一下即可获得答案的体验,对于各个平台来说,却意味着更短的留存时间。

在今天投资人眼里,只有高留存高活跃度才有高价值。因此,除了营收外,各个平台还要考虑,如何提高自己用户的活跃度和留存时间。他们不再希望用户“尽快离开搜索引擎,到该去的地方”,他们最希望的是,用户留下来,不停的点击下去。

用户想要好的体验,平台想要更高的收益或者估值(市值)。两者并非完全对立,如果有搜索方案和信息流产品,可以在用户搜索时,给出最接近用户想要的信息,通过AI技术,展示出最相关的信息流产品。这样,既可以满足用户,又可以增加收益。

但是,在实际的操作中,搜索引擎往往过于看重收益。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

什么影响淘宝类目搜索 类目优化放置的技巧

什么是淘宝类目搜索?可能有些新手掌柜还不是很了解,解释一下,就是在淘宝在淘宝主页很多的分类栏目里面找自己想要的东西或品牌,逐级点击,找到你的店或产品,在进入到你的店。类目搜索是的主要来源,所以我们可以通过分析类目搜索的相关规律,然后制定为自己店铺引流的方案。下面就让我们一起来看看哪些因素影响淘宝类目搜索?类目优化放置的技巧有哪些?

一.影响淘宝类目搜索的因素

1.商品属性是否与发布的商品所放置的类目一致

2.商品属性是否与发布商品所设置的属性一致。

3.在淘宝首页推荐各类目下是否出现和该类目无关的商品。

二.类目优化放置的技巧

1.细节认证

可能有的卖家没有注意这一块,也没有引起重视。但是在所有产品里,细节认证排序是默认靠前的。

2.主营占比

店铺卖出去的同类产品越多,主营类目就越清晰,整体的排名也会越好。假如你原来是卖化妆品的,现在想转行卖服装,只会直接导致主营占比很低,影响排名权重。

3.宝贝的标题

宝贝标题中最重要的就是关键词,尽量把与宝贝相关度高的关键词放置在宝贝标题中,做好标题优化。怎样确定关键词呢?一般从顾客的搜索习惯、与宝贝的关联性、不同的销售阶段着手。很多顾客目标明确,会在淘宝首页的搜索框中输入自己需要的东西或条件,因此卖家可以利用这一点来设置目标关键词。

4.收藏数、店铺评分

淘宝现在越来越重视服务与产品质量,服务与质量越高的排名越靠前。大家可以看看各类目的一些导航,大部分都是服务和价格占主要位置。只有先满足这些条件,你才有能力去竞争其他的。但是,切记不要为了流量不择手段的去、刷评分,这是不可取的,一旦发现了是要受到淘宝惩罚的,得不偿失。

5.上下架时间

这个和关键词搜索一样,淘宝类目搜索排名也和有关,所以这一块要做好优化工作,前面已经讲到很多啦,这里就不细说了。

通过总结以上类目搜索的相关规律,相信大家能更好地利用其中技巧去做淘宝排名优化。

搜索修改何时了 数据哪里找 这个问题怎么办

未来,商业的竞争就是数据的竞争

京东说,“如果你的竞争对手,掌握了你最核心、最机密的数据,那无异于在自掘坟墓”!

阿里说,“我们是一家数据公司,即使我们已经是全球最大的零售平台“!

亚马逊说,“因为数据,未来,我们会比你自己更懂你“!

咳咳,说了这么多行业大佬们的论断,似乎一下子把话题聊的太大了,今天的内容,还是需要接地气。对于行业巨头而言,把数据的分析和管理都作为未来成败的关键。而对于成长中的中小企业而言,哪怕是一个小型摄影工作室,一个小型的贸易公司,数据就可有可无了吗?

这里有三个问题:

1- 你知道对于你们而言最重要的数据是什么吗?

2- 你有快速计算、处理、分析数据的方法吗?

3- 这些数据对于公司又意味着什么?

在我看来,数据之于成长中的中小企业,即使不需要像互联网公司那样视数据如生命,而更安全的数据存储,更精准的数据检索,更快速的数据处理也能够带来更高的工作效率和更大的发展机遇。其实,这个问题也可以从三个由简至繁的场景来诠释:

场景一:“老板现在需要我找到去年11月份给A客户提交的一份项目总结“

场景二:“老板现在需要我找到去年11月给B客户提交的策划方案第二稿“

场景三:“老板要看最新的项目进度表,1个小时内准备好后开个项目碰头会“

如果只是几个人的小工作室,这些问题可能好解决,但是如果员工人数一多,沟通的成本就会嗖嗖往上升,这些看上去的小问题就有可能成为制约企业发展的“大“问题,而如果用一句话归纳,我觉得是:

搜索修改何时了,数据哪里找

工欲善其事必先集存储

当然,我们可以找到网盘、移动硬盘等无数种方式来存储数据,也可以通过电脑搜索、邮件搜索、网盘搜索、查看文件修改日期、翻阅手机沟通记录、微信和QQ文件互传等多种方式来管理数据……但是你不觉得这个就已经很影响效率了吗?今天我想要介绍的就是一个更有效率的方式——利用群晖NAS来集中存储和管理数据。

还是从上面聊到的场景出发,首先是如何快速找到数据的问题——要解决找数据的问题,首先得解决存数据的问题,群晖NAS可根据企业需要自由扩充存储容量(根据产品型号匹配大容量硬盘)和一个兼容Windows、Mac、Linux的便捷存储平台。

为每一位入职的员工开通NAS账号并设置访问权限,然后他们就可以像网页一样打开DSM操作系统或者在办公电脑中新增一个局域网存储空间,当所有资料/数据都在统一的存储服务器内,想要查询资料就方便了很多,哪怕遇到离职等问题,也不再需要担心数据的丢失。更关键的是,完成这些操作几乎不需要很强的IT基础,看文字并跟着提示来就可以。

众里寻档千百度,精准搜索能到字儿

有了统一的存储空间,接下去就是如何快速找到对应的资料,你可以直接在项目负责人的存储空间内寻找,当然,也可以用群晖自己的搜索工具。

进入NAS的文件管理中心File Station,可以自定义关键词、时间、后缀名、指定文件夹的全内文搜索功能——

不仅能够搜索文件,还能搜索涵盖整个NAS应用程序、聊天记录(Chat)的——Universal Search

文档若只如初见,备份不怕被覆盖

如果你不在电脑前,想要将资料快速给到老板,你可以直接通过手机——DS file套件连接NAS并分享。

回到上文的场景,找到资料或许不难,但是想要在那些改了无数稿,覆盖了无数遍的文件中精准找到对应的文件似乎就有点难度了,你不知道是不是已经被删掉了,也不知道纷繁复杂的修改稿哪一个才是老板要的,通过文件修改日期来判断似乎效率太低,这个时候,不妨试试群晖的Cloud Station Backup。

备份是一个好习惯,当完成设置之后(设置同样很简单,根据提示和自己的需求疯狂点击下一步就可以,这里就不赘述了),Cloud Station Backup在完成第一次备份工作后,就将开启增量备份模式,备份所有新增和修改的文件,同时,还可以弹性配置文件版本,每个文件都可以保留高达32个任一时间点的历史版本,随时复原不小心覆盖或误删除的文件。

说到这里,听上去有点像Mac的Time Machine,对于用Mac book的用户而言,NAS也可以直接作为Time Machine的备份源,留一点空间给NAS,让你的MBP不再空间不足。

(将群晖NAS设置为Mac电脑的Time Machine备份源)

表漫漫其修远兮,多人一起来编辑

解决了数据的快速查找和还原反复修改文件中的任一版本这2个场景,第三个场景也是目前工作中最常见的场景之一,那就是多人高效率的协作完成一项工作。你想像不到的是,似乎是存储设备的群晖NAS,在多人协作中也有很好的支持,这得益于他们的Office套件。

制定项目计划,控制项目预算,把控项目进程,协调项目资源,一个项目经理/产品经理要做的事情无外乎如此,群晖的在线Office套件只是解决了一个很小的问题——支持多人同步编辑,快速完成项目工作——那些一个个电话催,一封封邮件发的工作场景,就让他们过去吧!

(在线表格)

(在线文档同步编辑)

通过群晖NAS能快速找到文件,也能精准挽回那些因为覆盖和误删除造成的损失,还可以通过多人共同协作来提升数据处理的效率,在我眼中,这就是成长中中小企业的数据集中管理之道,借由群晖NAS,让一切都可以更简单一点。

百度淡化搜索框 想当一个更 善解人意 的入口

移动入口高度分散,检索信息的需求不足,让百度相对PC时代的强势地位下滑了。O2O行业呈现井喷,是昔日巨头渴望抓住的新机会。

O2O有多火?李彦宏不止一次感慨:中国O2O蓬勃发展使得360行裂变为今天的3600行。百度搜索统计显示,服务相关搜索量在2014年对于2013年增长133%;在此基数下,2015年又有153%的增长。

但对于服务性需求,通常不像过去信息搜索那样,在搜索框输入一两个关键字就能搞定。

从过去的一两年当中百度公司的持续动作可以发现,其一直在试图解决这个问题,希望由“检索信息”的入口转型为“连接人和服务”的入口。比如,推出了轻应用、直达号,以及一台“善解人意”的智能机器人。

于是,有了“百度世界大会”上李彦宏与“小度”亲切交流的一幕——他随意对着“小度”寒暄了几句,下单两杯拿铁咖啡,还要求预定一家鼓楼附近可以带狗的餐厅。非常琐碎的需求。

据记者了解,“小度”是一款完全由百度大搜索团队出品的家用智能机器人,经过数月时间保密状态下研发,目前尚未量产,未来定价可能在千元之上。

通过对这款机器人功能的演示,百度实际希望展示的是一种自然交流、理解需求并提供服务的过程。“贴身秘书一般”的搜索能力。

按照百度公司官方解读,这种被称为“度秘”的能力可植入到手机百度和其他产品当中,也将开放给全网所有APP。解决的是用户对服务的诸多需求。

“就像在PC时代,任何一个网站都可以放搜索框一样,移动互联网时代的APP都可以把‘度秘’的能力连接进去。”李彦宏说。

如李彦宏所言,从“信息检索”过度到“连接人和服务”,“度秘”将是搜索框的最佳替代品。而推而广之的试水,会被率先放在手机百度和地图两个过亿的APP上。

值得一提的是,百度地图随着O2O井喷越来越熠熠发光。百度地图事业部总经理李东旻对记者表示,今年Q2开始明显感受到O2O浪潮来的非常凶猛,对百度地图LBS定位数据的调用在过去两个月涨了70、80亿次。

现在,他每个星期要见上5-8家合作伙伴,都是做O2O相关的。“做O2O没有地图然并卵,再强也没有办法把地图抽离的。”

谷歌测试Search Lite 没网也能用搜索

Google出了个新玩意儿,通过它就算没有网络你也能用Google搜索东西。这科技黑不黑,好不好奇?一起来看看吧。Google最近在印度尼西亚的Facebook网站上刊登了一则邀请当地用户测试一款新应用程序的广告。从广告中可以看出,正在测试的这款应用名为Search Lite,这款应用应该是针对印尼、印度等网络环境不佳的地区推出的,目前这款应用只能在印尼的Play商店中下载使用。更轻,更小的Search Lite可以更好的节省流量,更快的反馈搜索结果且支持离线功能是Search Lite相对于目前搜索应用最大的亮点。此外,这款应用还会通过占用更少的储存空间以及运行内存来使一些操作变得更加容易。用户可以通过横向滑动应用程序的界面来选择使用的语言。并且Search Lite将所有的信息以图标网格的形式展现给用户,这和填充了应用程序的主屏幕有些类似。这款精简版

谷歌将提供更多实时搜索数据 包括新闻 图片和视频

新浪科技讯 北京时间11月28日午间消息,借助2015年上线的谷歌趋势服务,我们可以很容易地看到其他人正在搜索什么。谷歌本周宣布,将在主题搜索区域内提供更多实时数据,包括新闻、图片、视频,甚至购物搜索结果。

谷歌以关键词“泰勒·斯威夫特”(Taylor Swift)进行了举例。在用户输入搜索关键词时,你可能会想关注下拉结果中的副标题“美国创作型歌手”。在点击这个结果之后,你会看到页面,显示过去一周美国用户的搜索兴趣。如果想要挖掘以往的网页搜索兴趣,那么只需点击右上方按钮,选择图片搜索、新闻搜索、谷歌购物或YouTube搜索即可。

除了查找关于特定活动和视频的搜索活动以外,用户还可以看到,在选择的主题和平台上,哪里的搜索兴趣最强烈。

作者:邱越

来源:新浪科技

入门 | 将应用机器学习转化为求解搜索问题

选自machinelearningmastery

作者:Jason Brownlee

参与:乾树、刘晓坤

本文以搜索问题的视角重构机器学习,为我们提供了新的思维架构,富有启发意义。

由于针对某一特定问题设计一套完美的智能系统难以控制,所以机器学习的实际应用极具挑战。

实际生产中并没有完全适用于你的问题的训练集和算法,一切都等你自己去发现。

我们最好将机器学习应用看成针对特定项目的已知知识和可用资源寻找输入到输出的最佳映射的搜索问题。

在本文中,你将会学到如何将机器学习应用于搜索问题。

读完本文,你将知道:

  • 应用机器学习就是优化/逼近一个从输入到输出的未知基础映射函数的问题。

  • 数据集和算法的选择等设计决策会缩小最终可能选择的映射函数的范围。

  • 将机器学习概念化为搜索问题的思想有助于合理使用模型集成、对算法进行抽样检查以及理解算法的学习过程。

我们开始吧。

概述

本文共计 5 个部分;分别是:

1. 函数逼近问题

2. 搜索问题的近似函数

3. 数据集的选择

4. 算法的选择

5. 将机器学习转化为搜索问题的意义

函数逼近问题

机器学习的应用就是智能系统解决特定可学习问题的发展。

可学习问题的主要特征包括由输入数据和输出数据的集合以及两者之间的未知的相关关系。

可学习系统的目标是学习输入和输出数据之间的通用映射,以便可以对从输出变量未知的领域抽取的新实例进行准确预测。

在统计学习中,从机器学习的统计角度来看,该问题可被定义对给定输入数据(X)和相关输出数据(y)的映射函数(f)的学习。

我们有一个 X 和 y 的例子,而且也会努力想出一个逼近 f 的函数,例如 *fprime,*如此我们以后就可以基于新样本 (Xhat) 得出新的预测 (yhat)。

如此一来,我们可以将应用机器学习问题看作一个寻找近似函数的问题。

学习到的映射是近似的。

设计和开发机器学习系统是一个找到将输入变量映射到输出变量的未知基础函数的有用近似的问题。

我们完全不知道这个函数的形式,因为如果知道的话,还要机器学习系统干嘛?我们完全可以直接求解。

因为我们不知道真正的函数是什么,我们必须去逼近它。这意味着我们不知道,也许永远不会知道机器学习系统的近似函数与真实映射函数的接近程度。

搜索问题的近似函数

找到一个足以适合我们的要求的且逼近真实构成函数的函数。

学习过程中会遇到很多噪音导致的错误,并因此得到没什么用的的的映射函数。例如:

  • 机器学习问题的框架选择

  • 用于训练的资料选择

  • 预处理数据集的方法选择

  • 预测模型的表征形式选择

  • 让模型拟合训练数据的合适学习算法的选择

  • 评测模型的预测能力的性能指标的选择

还有很多。

你可以看到在机器学习系统的发展历程中有很多决策点,在此之前它们的答案都是未知的。

对于一个机器学习问题对应的所有可能解决方案,我们可以把它看作一个大的搜索空间。其中的每一个决策点都可以缩小搜索范围。

从输入到输出的所有可能的映射函数的搜索空间。

例如,如果某个问题就是预测花的种类,那么我们可以通过如下步骤从海量解决方案中筛选出一个可能的机器学习系统:

  • 选择将问题设定为预测物种的类别标签,例如,分类。

  • 选择给定物种及其相关子类的花的分辨指标。

  • 选择在一个特定的苗圃对花进行测量,以收集训练数据。

  • 选择一个决策树模型,以便整个预测模型可以阐述给项目经理听。

  • 选择一个 CART 算法拟合决策树模型。

  • 选择分类准确率标准评估模型的预测能力。

等等。

在一个机器学习系统的完善过程中你可能看到很多决策都有自然的层级结构。其中每一个决策都可以缩小我们将要建造的学习系统的范围。

这个缩小过程引入了重要的倾向性,有意识地选择可能的学习系统的一个子集而非其它子集,目的是得到我们可以在实践中使用的有用映射函数。这种倾向既适用于问题框架的顶层,也适用于低层,如机器学习算法或算法配置的选择。

选择数据集

选择学习问题的框架和用于训练系统的数据是开发机器学习系统的一个重要因素。

你不能使用所有的数据:所有的输入和输出都成对儿出现。如果你这样做了,就不需要一个预测模型预测新输入的输出值了。

你需要一些输入-输出对数据集。如果没有,你拿什么训练预测模型?

但是你可能有大量的数据,你只需挑选部分用于训练。亦或你可以随意生成大量数据,唯一的挑战就是生成或收集的数据的种类和数量。

你选择的用来建立学习系统模型的数据必须充分捕获可用数据的输入和输出数据之间的关系,以及该模型将来可能预测的数据之间的关系。

从一个问题的所有数据中选择训练数据

选择算法

你必须选择模型的表征形式以及用于拟合训练数据的算法。这同样是开发机器学习系统中的一个重要因素。

从一个问题的所有可能算法中选择一个算法

这个决策通常被简化为算法的选择,尽管项目经理经常对项目追加要求,例如模型能够解释预测,而预测又反过来对最终模型表示形式施加约束,最后反过来影响你可以搜索的映射范围。

选择一个从输入到输出的映射函数的逼近函数的影响

将机器学习转为搜索问题的意义

这种将学习系统转为搜索问题的概念化有助于清楚地表明应用机器学习中的许多相关问题。

这节有以下几点。

迭代学习算法

用于学习映射关系的算法将会强加更多约束,随着算法配置的选定,它将控制候选映射函数的空间指导拟合模型的方式(例如,迭代学习的机器学习算法)

此处,我们可以看出通过机器学习算法从训练集中学到的信息可以对学习系统可能的映射函数空间进行有效指导,最好是挑选的映射函数越来越好。(例如,爬山算法)

学习算法在训练集上迭代更新的影响

这为优化算法在机器学习算法中的核心作用提供了一个概念上的理论基础,以最大限度地获取特定训练数据的模型表征。

模型集成的原理

我们同样发现在所有可能的函数映射上的不同位置可以得到不同的模型表征,这些模型自然也都表现出不同的预测行为(例如,不相关的预测错误)。

这就使得整合不同的但是有效的预测模型的方法在概念上可行。

组合多个最终模型进行预测的解释

抽样检查的原理

不同表征方式的不同算法可能在函数映射空间中的不同位置开始,并以不同的方式指导搜索。

如果都是在选定框架和良好的数据集下的约束空间内进行搜索的,那么大部分的算法都可能会发现好的或类似的映射函数。

我们可以看到一个好的框架以及精心挑选的数据集是如何找出候选函数映射空间的,这可以通过一套强大的机器学习算法找到。

这为在给定的机器学习问题上检查一组算法,并进一步简化最有希望的算法或选择最节省的解决方案(例如奥卡姆剃刀)提供了理论基础。

扩展阅读

这一节提供了更多的相关资源以帮助你深入研究这一问题。

  • Chapter 2, Machine Learning, 1997.

  • Generalization as Search, 1982.(2019/20190426A/F0121996

  • Chapter 1, Data Mining: Practical Machine Learning Tools and Techniques, 2016.

  • On algorithm selection, with an application to combinatorial search problems, 2012.(https://research-repository.st-andrews.ac.uk/handle/10023/2841)

  • Algorithm Selection on Wikipedia

原文链接:https://machinelearningmastery.com/applied-machine-learning-as-a-search-problem/

本文为机器之心编译,转载请联系本公众号获得授权。

中国搜索与百度搜索有什么区别 中国搜索怎么安装

中国搜索是一款由中央七大新闻单位打造的互联网搜索应用,致力于为民众传播公开、公平、公正、权威、准确的互联网信息,营造干净健康的上网环境。目前网上的搜索应用很多,比如360、百度等等,那么中国搜索与百度搜索有什么区别?中国搜索怎么安装?一起来和小编看看吧!

中国搜索与百度搜索有什么区别?

中国搜索:

中国搜索是“搜索国家队”重新整合后新推出的产品,和普通商业搜索相比增加国情、理论等垂直搜索内容,由盘古搜索和即刻搜索合并而成中国搜索。打开国搜客户端,在搜索框中直接输入想要搜索的内容,目前手机百度客户端支持语音输入、图像输入、文字输入等多种方式,全方位的满足用户的需求。中国搜索将逐步增开音乐、社区、开放平台、搜索认证、百科、文库、阅读、教育、校园、旅游、健康等更多贴近民生、服务大众的应用服务和垂直搜索频道,并开发一系列移动搜索服务产品。中国搜索致力于成为掌握权威信息搜寻、紧跟科技发展步伐、服务多方受众需求的国家级搜索引擎

百度搜索:

百度搜索是一款有6亿用户在使用的手机搜索客户端,依托百度网页、百度图片、百度新闻、百度知道、百度百科、百度地图、百度音乐、百度视频等专业垂直搜索频道,方便用户随时随地使用百度搜索服务。

中国搜索和百度最大的区别就是权威性高,而且是国家级所搜引擎,服务大众,更加贴近民生。

中国搜索怎么安装?

1、下载中国搜索客户端;

2、运行中国搜索客户端即可安装成功。

SEO网络优化了解绝大多数网民的搜索习惯

为什么要学习SEO

搜索引擎优化处理是网站业务中非常重要的一部分,许多Web站长和Web管理员都错误地相信,只有SEO处理能够将他们的站点直接显示在搜索引擎结果的顶部。然而,一个成功的Web站点背后的秘密,依赖于完善的Web站点管理。搜索引擎优化工作对于一个高质量的网站来说比低质量的网站更容易实现。在开始讨论SEO技术细节之前,理解下面的诀窍将有助于站长获得更好的SEO结果。

1.目标是用户,而不是搜索引擎

当用户从站点上获得了较好的体验后,他/她可能会再次因为站点的内容访问该站点。回访者的数量和新访问者的比例应该控制在一个合理的范围,即便是使用了较好的SEO,如果网站内容匮乏,结果令人失望,经由搜索引擎到你的站点的用户也不会再回头访问,将导致无用的SEO努力。

2.长期且持续的优化过程

优化站点是一个长期且需要持续的过程,需要大量的时间和精力才能为网站带来显著影响。许多站长之所以达不到SEO目标,是因为他们太急于求成,想快速得到SEO结果。因此在开始学习SEO技术之前,要记住即便是使搜索引擎爬虫索引到网站的内容也可能需要花费数周的时间。

3.练习,练习,再练习

在学习SEO技术时需要记住的最后一个诀窍,就是不断地练习和分析结果,比如一些技术可能适合特定的站点,但是不适用于其他的站点,因此需要多加练习这些SEO技术,然后将之应用到站点上,分析结果并确定哪些方法能够增加站点的流量和排名。

了解绝大多数网民的搜索习惯

大多数用户依赖于搜索引擎,特别是百度和谷歌,来查找他们想要的内容。当他们进行特定的搜索时,他们遵循通用的步骤:开始于他们需要知道的信息或服务,结束于单击搜索到的结果内容。让用户完成最后步骤是搜索的最终目标。理解人们在搜索页面上的行为是非常重要的,这可以帮助你发现用户的搜索方式以及他们搜索的目的,并适当地调整你的搜索引擎优化过程。

1.搜索信息

用户可以到很多地方搜索信息,比如搜索引擎、黄页和报纸。统计显示很多人中意于使用搜索引擎来搜索信息,这表示搜索引擎网站优化越来越重要。实际上,很多商务网站已经开始聚焦于搜索引擎来提升其流量和排名。

2.使用最常用的搜索引擎

搜索引擎使用多种方法和算法来索引Web内容且显示在结果页面上,这是用户更为喜欢使用一个专用搜索引擎的原因之一。根据comScore的互联网统计数据,谷歌在2011年占据搜索引擎65%的市场份额居于首位,排名第2的雅虎占据市场份额约15%。对于中国用户来说,百度无疑是搜索引擎首选,其次必应、360都是可供选择的搜索引擎

3.开始搜索

用户通常需要通过几个通用的步骤来从Web上搜索信息。SEO处理开始于用户需要特定的信息,比如用户可以搜索本地服务或业务,当在搜索引擎上搜索时,通常使用一个特定的搜索引擎查询或一些关键词来搜索,搜索引擎返回一系列相关的结果,用户可以选择其中一个结果进行查看。

4.在搜索引擎输入框中输入搜索条件

用户开始搜索时,需要提交搜索请求或者搜索条件,可以是一句话或者是一组关键词,这些称为搜索字符串。搜索引擎使用这些关键词来确定匹配搜索条件的结果,并显示在搜索结果页面上。在SEO的处理中,优化人员在创建页内和页外优化计划时,通常需要关注用户所使用的常用关键词,如图1.1所示。

图1.1 输入搜索条件

5.向搜索引擎提交搜索语句

用户输入一条信息或者一个服务作为搜索查询请求,然后使用搜索引擎页面顶部的表单提交给搜索引擎。在这一步中,用户通常选择常用的搜索引擎,多数用户使用百度或谷歌作为其首选的搜索引擎,因为它们界面简洁,提供了精准的结果,并且使用成熟的方法来显示匹配查询关键词的搜索结果。

6.查看搜索结果列表

搜索引擎基于查询关键词显示搜索结果,这些结果依赖于抓取的网站和索引的关键词。搜索结果包含2种类型:免费搜索结果和付费搜索结果(或者是建议的搜索),如图1.2所示。

图1.2 查看搜索结果

7.单击链接查看搜索目标页

用户通常会检视搜索结果页,查看标题和描述。如果结果页匹配用户的需求并且感觉是最佳搜索结果,那么用户会单击搜索结果列表上的链接,否则用户会继续查看其他的页面。用户也可以使用搜索引擎高级选项,比如基于指定日期、内容类型或特定的搜索条件来过滤结果。

熊掌号新搜索指数大幅下降 这些原因你一定要知道

熊掌号搜索指数是对账号的客观评价,通过质量分与任务分的形式进行计算。

从3月开始,系统将会采用新的搜索指数计算方法,部分熊掌号的搜索指数将会有一定幅度的降低或波动。近期原创及内容质量的参考权重逐步增加,会导致帐号指数波动,目前有以下几种变化情况:

1. 搜索指数突然大幅度降低或上升,任务完成情况无变化,内容质量不稳定

2. 搜索指数升降交替,内容质量不稳定

3. 搜索指数长时间持续下降,内容质量稳定

下面就为大家详细介绍这三种原因:

1. 搜索指数大幅度降低或上升,任务完成情况无变化,内容质量不稳定

示例:熊掌号搜索指数分大幅度下降

熊掌号搜索指数大幅下降是受到内容质量的影响,当提交的内容质量不够稳定,原创文章过少,达不到当前分数的评估要求时,就会有合理浮动,代表内容存在一定的问题,需要优化,系统会给出对应的落地页质量反馈。

所以看到这样的大幅浮动时,请查看自己的原创文章数量及提交内容质量,速度补充原创文章,提升原创文章比例,并依照反馈与搜索资源平台的内容质量页面要求进行优化,可以快速恢复原创分与质量分。并且优化后,也有助于提高账号评价。

示例:如何查看原创数量

原创能力:发布的原创内容越多,数量占比越高,原创能力维度得分就越高。反之,抄袭他人的创作会导致得分降低。通过原创接口提交的内容,才能参与原创能力评价。

2. 搜索指数升降交替,内容质量不稳定

熊掌号搜索指数升降交替是受到内容质量和原创度的影响。当提交的内容质量不够稳定,达不到当前分数的评估要求时,就会有轻微浮动,代表内容存在一定的问题,需要优化,系统会给出对应的落地页质量反馈。当提交的原创内容数量不足,原创内容占比不高时,也会有相应浮动,可以在后台查询原创文章数量看到原创内容数。

示例:熊掌号搜索指数分升降交替

所以看到这样的轻微浮动时,请依照反馈与搜索资源平台的内容质量页面要求进行优化,并且增加原创内容的提交。优化后,也有助于提高账号评价。提交原创文章数量和比例增加时,会迅速扭转指数降低的现象。

同时,因为指数高低与提交内容数量和质量紧密相关,交替升降的浮动是正常的,以周/双周为时间区间来观察指数平均值更加合理。

3. 搜索指数长时间持续下降,内容被收录情况较好,内容质量稳定

示例:指数长时间持续下降,内容被收录情况较好,内容质量稳定

熊掌号搜索指数轻微浮动是受到内容质量和原创度的影响。如果出现近期提交数据收录情况好,但是指数依然持续下降的情况,可能是因为原创度不够,提交低质资源过多。被收录内容数量表现情况较好并不代表优质资源量比例高,如果前期提交过很多不收录资源(不收录可通过熊掌号-数据统计查看),会造成指数持续下降的情况。这种现象会随着提交优质资源和原创内容的增加而逐渐减少,也能终止分数下滑。

注意事项:

熊掌号指数会在72小时内发生变化,所以并非当天的指数就是当天的账号情况。如26号的指数可能会是24或25号的情况反映。