欧盟拟第三次向谷歌发难 这次瞄准的是搜索广告业务

【赛迪网讯】5月16日消息,据国外媒体报道,欧盟竞争专员玛格丽特路维斯塔格(Margrethe Vestager)在研究是否加大对谷歌搜索服务的调查力度,可能在与谷歌的反垄断大战中开辟第三个战场。维斯塔格已经就Android移动操作系统和购物服务向谷歌发出异议声明。

维斯塔格表示,她希望在一个“合理的时间框架内”就谷歌搜索服务是否涉嫌垄断做出决定。她在谈到对谷歌广告服务的调查时说,“我希望我们能终结调查或得出一个初步结论。”

当地时间周五,维斯塔格在一次会议上表示,对谷歌搜索服务的调查不同于另外两起调查,“有自己的特点”。

欧盟最近恢复了2010年首次公布的一起调查:谷歌与部分网站达成的封杀其他广告服务,以及与计算机和软件厂商达成的封杀其他搜索工具的协议。

这一调查针对谷歌AdWords,对谷歌营收的影响要大于另外两起调查。广告服务一直是推动谷歌营收增长的主要引擎。广告占到谷歌2015年745亿美元(约合人民币4861亿元)营收的大部分。

谷歌未就此置评。

维斯塔格称,监管机构还在积极调查谷歌的旅行、地图和本地搜索服务。这些案件“非常受重视”,因为它们对市场发展有直接影响,存在危害创新的风险。

维斯塔格表示,在对谷歌购物服务调查的收官阶段,她的团队分析了“海量数据”。作为审查谷歌辩护论点努力的一部分,欧盟在寻求获取更多信息。

微信搜索再发力 这一次 每个公号有了专属的 官网

最懂

的自媒体

许久没有大动作的微信公众号,昨晚果然“整事”了。

晚上21点22分左右,晓程序观察(yinghoo-tech)后台收到一则极其简短的通知:“微信搜索”开放。同时,我们还发现首页左侧栏,也悄无声息的增加了一栏“微信搜索”。

经过一番测试下,这次主要做了2个升级:

1、“搜索开放平台”插件已升级为“微信搜索”,其中包括品牌搜索、服务搜索、功能组件三个主要功能。

2、原微主页小程序已改版为官方主页,不再以小程序的形式出现。

正是有了这两个改变,公众号再次成为微信搜索里的C位,以公众号品牌主页(以下简称‘公号主页’)为流量聚集地,向微信搜一搜里所有业务进行分发

1

公号主页与微主页小程序

差别在哪?

1、服务:功能直达的新入口

公号主页新增了功能直达的入口。

功能直达是工具类小程序最重要的入口之一。

「车来了」COO宋晓天说:“上线功能直达后,每天有1-2万新增用户。”

与他有着同样感慨的,还有「微软AI识图」产品经理张鹏:“功能直达带来的用户达15~20%,占比相当大”。

但随着开通功能直达的小程序越来越多,大家都挤在微信搜一搜的“服务”栏,很难被用户找到并使用。

现在微信又给功能直达增加了一个新入口,用户在公号主页“服务”栏,就能进入该公号旗下小程序所提供的功能直达服务,对很多初涉功能直达的小程序而言,这是一次绝佳的冷启动机会。

通过公号主页里的功能直达,极大地加强公众号与小程序之间联动,将公号与小程序紧密联系在一起

2、资讯:终于可以关注公号

微主页小程序与公号主页虽然都有资讯功能,但他们有着本质区别。

①由于微主页是小程序,其“资讯”模块虽然是拉取公号已群发的图文消息,但该文章只是只读模式,用户无法通过文章关注公号或点击内嵌小程序进行跳转。

微主页

② 以上微主页小程序所不能满足的功能,都能通过公号主页解决。点击资讯里的文章,即跳转至公号文章,可以再进入公号主页进行关注。

公号主页

3、在线购买:精品店与电商小程序齐飞

在这次升级中,我们申请开通公号主页时,看到“在线购买”栏可选择精品店或其他小程序。

设置成功后,在公号主页名称栏右侧即会显示“在线购买”字样。点击之后的落地页就是精品店或者其他小程序。

那么问题来了,在二选一的情况下商家如何抉择?

先要明确这两种小程序的本质。

精品店小程序:是微信向已经入驻品牌官方区的商家提供的商品销售工具。(如何开通,点击阅读)除了基本的店铺信息、商品、订单、客服管理外,用户在精品店里点击“稍后购买”的商品都会进入“我的购物单”里。

另外,我们刚刚还发现,“我的购物单”新增好货推荐功能,商家可向用户推荐好货(新品),会以小红点形式让用户看到。

值得注意的是,精品店小程序里所上线的商品,几乎都是单一品牌,因为精品店需要与公众号、小程序主体一致。

其他小程序:也就是商家自己的电商小程序。

现在,能做出正确判断了吧?

如果你公众号已经获得商标保护,且入驻品牌官方区,只出售本品牌旗下商品,那么你可以尝试使用开发简便、页面清新的精品店小程序。如下图:稻香村。

如果你是电商平台,且需要多种营销玩法,那么你便没有必要接入精品店小程序。如下图:苏宁易购。

4、门店信息:线下导流的机会

除了以上功能外,我们还惊喜的发现,在公号主页里还能嵌入门店小程序,比起微主页里的门店位置显示,门店小程序能展示的信息更多。

门店小程序里特有会员卡、优惠券等卡券信息,可以进一步提高品牌转化率。

2

从使用场景来看

这2类的机会来了!

这次升级成“微信搜索”,公众号获得了一次创建官方主页的机会。用户通过搜索公号名称,可以触达到以公号为中心的各个功能模块,包括前面说的种种。

问题来了,肯定有用户会问,什么样公号名称会被搜索?

①知名自媒体,如同道大叔、虎嗅网、咪蒙等等。特别是像同道大叔这种既有线上周边商城、又有线下实体店的自媒体,公号主页里的线上购买、门店信息都能加强与用户的强连接。

②知名品牌,如肯德基、麦当劳、H&M、海底捞等等。用户为了优惠券、会员卡、排号等福利会经常搜索这些品牌,于是公号主页里的其他业务便能触达用户。

最后,对于工具类小程序而言,虽然公号主页为功能直达打开了一个新的入口,但用户会主动搜索一个工具的难度有点大,除非是像小打卡、小电充电那种知名小程序。所以对工具类小程序来说,搜一搜里的功能直达依然可能是你的重要舞台。

之前大家都说小程序是公众号的必备,现在看来,应该小程序与公众号双剑合璧,同时出击才是正确玩法。

1

END

1

重磅

「玩转全球免税」程震:平均客单价4800元,这款小程序“有毒”!丨路演实录

热议

技能干货 怎样让你的简历在招聘网站搜索中排名靠前

我们大家都知道,通过招聘网站找工作主要有2种方法,第一是主动搜索职位,主动投递简历;第二是被动等机会,等有需求的用人单位HR搜索到你。

可是,招聘网站中的简历有几十万上百万,怎么才能让你的简历在HR主动搜索时可以排名靠前一点呢?

为什么要让你的简历排名靠前?举个例子大家就明白了。

假如你在百度上搜索“北戴河农家院”,系统瞬间可以把100W+的结果推到你面前,而你只会关注首页上的几条信息,偶尔也可能翻到第二页,后面的信息你就不会看了。

假如你在淘宝上搜索“月饼”,系统会自动给你展示100页+的信息,但你也只会关注首页上最前面的几条信息,其他页的信息你也基本不会看。

同样,在HR搜索某一关键词时,招聘网站会自动给她匹配所有与关键词相关的简历,可能是几千封,也可能是几万封。可是HR也只会关注首页的前几条信息,或者是前几页的信息。至于第10页、第20页的简历,她没精力看,也看不过来。

那么,问题来了,你的简历在HR搜索时是展现在第2页还是第20页呢?

同样在招聘网站上挂了简历,为什么别人经常接到HR约面电话,而你却全无音讯?为什么别人可以借助HR主动搜索来给自己增加机会,而你却不行?

今天的这篇文章,我就来帮你解决这个问题。

在这,我们要提到一个SEO的概念,这是英文Search Engine Optimization缩写而来, 中文意译为“搜索引擎优化”。SEO是指通过对互联网信息进行持续优化,来提高该内容在百度、淘宝等搜索平台的排名。当用户搜索某一关键词时,优化后的内容可以优先展示在结果中的前几页,甚至是展现在首页顶部。只要SEO做得好,就可以实现这种结果。

同样,大家想提高自己简历在招聘网站中的搜索排名,也要像做SEO那样去优化简历——通过优化简历内容,使自己的简历更适合招聘网站的搜索抓取,保证在HR搜索相关关键词时,你的简历可以被抓取出来,优先展示在页面中比较好比较靠前的位置。

下面教大家3招提升自己简历搜索排名的方法:

1招:简历标题必须具备岗位词+技能词+亮点词

你的简历是否可以被HR搜索到,很大程度上取决于标题是否精准。在简历搜索优化中,标题部分的重要性是最高的。

如果你的简历标题只写“张三-应聘行政助理”这是远远不够的,一定要把你突出的技能和亮点加到标题里。例如,“张三-应聘行政助理-精通PPT制作-擅长photoshop”肯定会更有利于搜索展示。

2招:简历工作经验部分必须具备技能词及行业通用词

这是什么意思呢?

我们举2个例子做说明:

案例一:

XXX,应聘淘宝店铺运营,曾就职XX公司,工作职责为:

A、负责在网上发布XX产品信息;

B、负责XX产品曝光和排名;

C、运用其他方法开发新用户;

其实他第一块工作是淘宝店铺运营相关的,第二块工作是关键词搜索优化,第三块工作是用社交媒体朋友圈开发客户。

可是HR在搜索简历时,肯定不会搜索“在网上发布产品信息”、“运用其他方法开发新客户”这样的大白话关键词,所以她简历被搜索到的可能性就非常小。

但是,如果把工作内容中增加一些行业通用词汇和术语,被搜索到的可能性就大大提高了。

我们建议这位求职者把工作职责作一下简单的修改:

A、负责在网上发布XX产品信息——修改为:店铺运营、淘宝店运营、电商运营

B、负责XX产品曝光和排名——修改为:产品关键词优化

C、运用其他途径开发用户——修改为:利用新媒体、社交媒体开发客户

案例二:

XXX,应聘销售助理,曾在XX公司实习,工作职责为:

A、接听新客户的电话咨询;

B、负责团队费用报销、出差数据整理、邮件收发等;

同样,HR在搜索简历时,肯定不会搜索“接听电话”、“费用报销”这些关键词。但如果修改一下简历中的措辞,结果就大不一样了。

我们建议这位求职者把工作职责作一下简单的修改:

A、接听新客户的电话咨询——修改为:售前咨询

B、负责团队费用报销、出差数据整理、邮件收发等——修改为:销售内勤

以上2个案例的简历只要优化一下关键词和表述方式,就可以获得更多的被搜索、被展示的机会。

说到这,也许有的小伙伴会担心,“我的工作经验不多,之前做过的事也比较少,我不知道有哪些行业词和术语,怎么办?”

这完全不用担心,你自己不懂,可以模仿别人呀。当你不知道应该用哪些行业词描述自己工作内容时,就去招聘网站上看看你想应聘职位的岗位描述是怎么写的吧。当看过几十条岗位描述之后,你就可以把出现频度比较高的关键词提炼出来,把它们加到自己的简历里。

3招:简历要经常刷新,频率可以设置为自动刷新或者定期刷新。

招聘网站会优先推荐活跃度高的、经常被刷新的简历。

内容类似的简历,如果一个是昨天刷新的,一个是上个月刷新的,搜索出来的结果肯定是不一样的。

太久不刷新的简历要么根本就不会被搜出来,要么只能显示在后面,比如,第十页,这样的简历是很难获得面试机会的。

– End –

本文转载自「面试求职那些事」,搜索「woizhishi」即可关注。

百度移动搜索建站优化白皮书(全文)

1 前言

手机百度是一款有6亿用户在使用的手机搜索客户端,在中文用户信息获取上发挥了不可替代的作用;移动搜索引擎每日分发上亿流量给到优质安全网站,来满足用户的搜索需求;而对于广大的站长来说,优质安全的网站有助于在搜索引擎中获得良好的排序和展现,从而吸引更多用户,获得更多流量。

移动搜索引擎优化,指从建站开始到吸引用户,贯穿所有流程,为了让百度搜索的重要合作伙伴——广大站长充分了解百度搜索引擎规则,并根据规则合理安全建设网站、优化网站,更好的获取搜索流量;百度搜索资源平台历时3个月,探访搜索内部各个技术部门,将百度搜索内部技术原理抽丝剥茧,化零为整,整理出《百度移动搜索建站优化白皮书》,希望与各位站长携手,为用户提供一个健康安全高效的搜索环境。

2 网站建设

2.1 域名选择

网站域名选择,不仅能快速直观让用户了解网站定位,域名设置,更会影响搜索对网站的抓取情况。因此,选择简单好记且安全的域名,是网站搭建前期最重要的一步。

2.1.1 域名选择的注意事项

网站搭建之初,对网站域名选择,建议域名独立,简单好记;独立移动站域名选择也遵循此规则。

移动站的域名需与PC站域名分开,移动站不建议与PC站公用一个域名;比如PC网站域名建议是www.test.com,对应移动站的域名是m.test.com,而不是www.test.com/m/的形式;如果是自适应网站可不考虑此情况。

网站域名选择中,主要有以下两点建议:

√ 建议使用比较常见的域名后缀,如.com\.cn\.net等;

√ 如果网站追求个性化使用罕见域名后缀,为了保证搜效果,请来百度搜索资源平台(原百度站长平台)进行站点验证。

2.1.2 使用子域名或目录

网站是否需要建立子域名,或是划分多级目录,可根据网站自身定位及网站内容量级决定。通常来说,综合类或内容量较多的网站,可将内容按照不同二级域明确划分;而如果网站内容较少,不建议网站开设过多的子域名。

举例来说,blog形式站点,有的网站给到每个blog作者单独的三级域,但如果作者发布频率较低,整个三级域都是更新频率很低的状态,过低的发布频率对搜索引擎来说是不友好的。

2.2 内容发布系统

内容发布系统,无论是网站自建还是使用第三方建站系统,百度都是支持的;所有发布系统,除遵循有条理、逻辑清晰建站,还要注意网站搭建的安全问题,避免网站安全隐患,才能更好的提升网站价值。

2.2.1 自建内容发布系统

网站自建内容发布系统,注意事项包括:

√ 主体内容清晰且能够很好的识别与分辨;

√ 后台发布时间切勿自行设置,遵循发布时间与展示时间一致;

√ 内容发布系统中各表单设置合理,如对tag标签的设置不宜过多、不宜罗列关键词;

√ 分类划分明确,分类主题的文章对应发布到相应分类下;

√ 题文相符,切勿挂羊头卖狗肉,欺骗搜索引擎流量,损伤用户体验;

√ 段落清晰合理、字体大小适中、字体颜色切勿使用与背景色相近的颜色;

√ 发布内容目录划分清晰,具体参考2.3章节中网站结构设置。

2.2.2 第三方发布系统

使用第三方发布系统建站,需要站长关注以下注意事项:

√ 模板主题不建议频繁更换;

√ 类似wordpress等系统,不建议使用过多插件,会影响网页打开速度;

√ URL伪静态的处理,命名规范、层级清晰;

√ 开源建站系统存在较多安全隐患,使用过程中务必做一些安全上的设置和优化。

2.2.3 页面生成规范

无论网站自建发布系统,还是网站使用第三方建站系统,网站页面的生成,都应注意以下几点:

√ 网页结构清晰、各分类名称设置醒目;

√ 导航、面包屑导航设置合理,机器可读、位置突出,用户能很好得知所访问页面在网站中的位置;

√ 不存在遮挡主体内容的广告元素;

√ 无三俗图文、音频元素;

注意网站搭建系统安全问题,杜绝网站安全隐患。

访问请求中的content-type需要根据对应的类型进行正确设置,图示如下:

除此之外,关于页面规范标准,建议参考搜索学院发布的《百度搜索Mobile Friendly(移动友好度)标准V1.0》

2.3 网站结构

合理设置网站结构,是网站被快速抓取、获得搜索流量的基础;因网站结构设置不合理,导致网站无法被快速识别抓取的事例在百度日常反馈中经常见到,且网站换域名也会对网站造成一定损失,故希望各位站长从建站之初重视网站结构设置,避免不必要的损失。

2.3.1 URL结构设置

URL搭建是否有严格要求,请看以下几点注意事项:

√ 在搭建网站结构、制作URL时,尽量避开非主流设计,追求简单美即可,越简单越平常,越好,例如URL中出现生僻字符,如不常见的“II”,会引起搜索引擎识别错误;

√ URL长度要求去掉协议头http(s)://之后的URL长度不要超过256个字节;

√ 谨慎使用#参数,有效的参数不能放在#后面;可能被截断导致网页抓取异常。

2.3.2 目录结构设置

网站目录结构搭建是否合理,影响搜索引擎对网站的抓取情况,这里需要提到的是,网站目录结构无论是扁平化还是树形结构,一般都可以被搜索引擎发现,但有以下几点注意事项:

√ 建议不同内容放在不同目录或子域下,域名划分在2.1.2网站域名划分章节中有详细提到;

√ 不要使用孤岛链接,孤岛链接很难被搜索引擎快速发现;若网站已存在大量孤岛链接,建议使用搜索资源平台的链接提交工具向百度提交数据;

√ 重要内容不建议放在深层目录,若该内容没有大量内链指向,搜索引擎很难判断该页面的重要程度。

以下是图片示例:

2.4 服务商/自建服务器

选择服务商或者自建服务器,对网站搭建都是十分重要基础的一环;服务器安全和稳定将直接影响百度搜索引擎对网站的整体判断。

2.4.1 域名服务

2.4.1.1 域名服务&域名部署

关于域名服务和域名部署,有以下注意事项:

√ 站长在域名部署中请仔细各环节问题,不要出现域名部署错误情况;

√ 不建议网站进行泛解析,若网站爆发大规模泛解析,且影响恶劣,则会受到搜索策略打压;

√ 尽量选择优质域名服务商。

2.4.2 服务器

做网站还有非常重要的一环,就是服务器的选择,那服务器选择中,无论是虚拟主机、云主机还是独立的服务器,都应该注意以下四点:

√ 中文网站不建议选择国外服务器;

√ 服务器的稳定性非常重要,需要保持访问流畅,服务器是否稳定,可以使用百度搜索资源平台(原百度站长平台)抓取异常、抓取诊断工具进行检测维护。(服务器经常无法访问或者死机,对爬虫来讲都是致命伤害);

√ 服务器选择除了自身的稳定性外,实际上还要考虑网站的业务量,例如带宽、内存、CPU是否能够承受访问量,突发大流量情况下是否可以正常访问;

√ 服务器主机设置,需要注意是否有禁止爬虫抓取的设置、或存在404错误信息设置,这些情况都会引起不必要的搜索引擎抓取判断异常,为网站带来不必要的损失。

2.4.2.1 虚拟主机

总的来说,建议虚拟主机选购时候需要特别注意:

√ 主机商是否存在限制搜索引擎访问的情况;

√ 主机商的资质是否符合要求;

√ 主机商的技术沉淀是否足够,建议选择品牌较大的主机商;

√ 主机商托管的机房的物理条件和网络条件是否足够优秀;

√ 主机商的技术和客服支持情况是否够好;

√ 主机商是否会存在超容量的情况;

√ 主机商是否存在违规接入高风险站点的问题或同一IP下是否会存在高风险站点的情况;

√ 国内站点建议选购国内云主机建站。

2.4.2.2 独立主机

独立主机为站点带来更加宽松的使用环境和个性软件的安装,因此独立主机需要站长拥有一定的技术力量来保证网站的正常运行和安全。

我们对于站长选购和托管独立主机的建议是:

√ 注意虚拟主机是否有将爬虫IP拉入黑名单,关于百度UA,可以参考3.1.2.1百度蜘蛛章节;

√ 建议使用独立IP地址的主机;

√ 建议使用规模较大机构的主机,在安全配置、稳定性上相对更好;

√ 对IDC服务商的建设标准需要一定的考虑,例如防火、防盗、是否有UPS保证、室内温控、消防等;

√ IDC服务商的服务质量和技术是否达标,是否24h值班,是否能够协助排查一些故障、免费重启重装系统等;

√ IDC机房的资质是否齐全,存放站点是否有高风险站点或服务器存在。

2.4.3 安全服务

2.4.3.1 HTTPS

当前百度已实行全站化HTTPS安全加密服务,百度HTTPS安全加密已覆盖主流浏览器,旨在用户打造了一个更隐私化的互联网空间、加速了国内互联网的HTTPS化。同时也希望更多网站加入到HTTPS的队伍中来,为网络安全贡献一份力量。

HTTPS安全原理解析

HTTPS主要由有两部分组成:HTTP + SSL / TLS,也就是在HTTP上又加了一层处理加密信息的模块。服务端和客户端的信息传输都会通过TLS进行加密,所以传输的数据都是加密后的数据。

HTTS复杂的加密机制有效的加大了网站的安全性,加密机制与认证机制可以减少网站被劫持和假冒的风险,建议站长们可以通过做HTTPS改造来强化网站安全。

百度搜索资源平台为了更好的抓取识别HTTPS网站,2017年还推出了HTTPS认证工具,已经完成HTTPS改造的网站,可以在搜索资源平台-网站支持-HTTPS认证工具中提交网站的HTTPS数据,便于百度更好抓取识别网站。关于HTTPS认证工具详解,可以参考5.3.2HTTPS认证工具章节。

2.4.3.2 网站防止被黑对策

网站被黑,通常表现为网站中出现大量非本网站发布的类似博彩内容,或网站页面直接跳转到博彩页面;以下是网站被黑后发布的内容:

内容非网站发布,内容中含大量博彩网站指向:

网站页面直接跳转到博 彩 网 站

网站被黑代表网站安全存在严重问题或漏洞,如何防范网站被黑,请参考以下:

首先,自查是否被黑

√ 被黑网站在数据上有一个特点,即索引量和从搜索引擎带来的流量在短时间内异常数据异常。所以,站长可以利用百度搜索资源平台(原百度站长平台)的索引量工具,观察站点索引量是否有异常;如果发现数据异常,再通过流量与关键词工具查看获得流量的关键词是否与网站有关、是否涉及博彩和色情;

√ 通过Site语法查询站点,结合一些常见的色情、博彩类关键词效果更佳,有可能发现不属于站点的非法页面;

√ 由于百度流量巨大,有些被黑行为仅针对百度带来的流量予以跳转,站长很难发现,所以在查看自己站点是否被黑时,一定要从百度搜索结果中点击站点页面,查看是否跳转到了其他站点;

√ 站点内容在百度搜索结果中被提示存在风险;

√ 后续可以请网站技术人员通过后台数据和程序进一步确认网站是否被黑。

其次,被黑之后如何处理

√ 确认网站被黑后,SEO人员除了要推动技术人员快速修正外,还需要做一些善后和预防的工作;

√ 网站如有变更页面,变更页面建议使用链接提交工具向百度提交数据;

√ 立即停止网站服务,避免用户继续受影响,防止继续影响其他站点;

√ 如果同一主机提供商同期内有多个站点被黑,可以联系主机提供商,敦促对方做出应对;

√ 清理已发现的被黑内容,将被黑页面设置为404死链,并通过百度搜索资源平台(原百度站长平台)死链提交工具进行提交。(我们发现有些站点采用了将被黑页面跳转至首页的做法,非常不可取。);

√ 排查出可能的被黑时间,和服务器上的文件修改时间相比对,处理掉黑客上传、修改过的文件;检查服务器中的用户管理设置,确认是否存在异常的变化;更改服务器的用户访问密码。注:可以从访问日志中,确定可能的被黑时间。不过黑客可能也修改服务器的访问日志;

√ 做好安全工作,排查网站存在的漏洞,防止再次被黑。

网站自我防护的注意事项:

√ 多种安全防护同步进行:适合中小型资讯网站;

● 网站程序勤打补丁:现在很多资讯类网站用的系统使用了内容管理系统(CMS),作为新闻发布系统,功能还算可以了,但是作为比较常见的内容管理系统(CMS),也有另一个问题,那就是漏洞比较大众化,因为源码是公开的,所以很容易被研究出漏洞,需要对网站程序及时进行漏洞修复。

√ 对服务器进行常规的安全防护;

● 在上班时间之外,对服务器上的网站权限做设置,禁止文件修改,后台文件隐藏或迁移到根目录之外。

● 参考一些网站的安全设置,非限定的IP不能写入到数据库。

√ 不使用开源程序默认的robots文件;

● 下图是一个地级市的资讯类站点的robots文件,从robots文件中可以看出,该网站用的是织梦后台,那黑客就可以通过各种针对织梦攻击的软件进行操作了,也可以针对织梦网站的常见漏洞进行扫描和针对性攻击了。

2.4.4 网络服务

2.4.4.1 CDN

从搜索抓取机制上讲:百度蜘蛛对站点的抓取方式和普通用户访问一样,只要普通用户能访问到的内容,百度蜘蛛就能抓取到。不管是用什么技术,只要能保证用户能流畅的访问网站,对搜索引擎就没有影响。但有站长反馈使用CDN后出现网站抓取异常、甚至流量异常等问题,主要是两方面的因素:

一是部分CDN服务商硬件投入不够,经常出现不稳定情况,会导致大量的蜘蛛抓取失败,从而影响网站抓取效果,有的甚至影响了索引量数据;所以选择有实力的CDN服务商很重要;

二是缓存机制在网站出现死链、无法打开、被黑等情况的时候起到了推波助澜的作用。短时间内产生了一些不利快照,影响了排名。这种情况不用担心,及时清理源文件和CDN缓存,并在百度搜索资源平台(原百度站长平台)提交相关死链数据等方法进行挽回,是可以恢复的。

3 网站优化

3.1 抓取友好性

关于抓取的优先级,在此重点强调:

√ 网站更新频率:经常更新高价值的站点,优先抓取;

√ 受欢迎程度:用户体验好的站点,优先抓取;

√ 优质入口:优质站点内链接,优先抓取;

√ 历史的抓取效果越好,越优先抓取;

√ 服务器稳定,优先抓取;

√ 安全记录优质的网站,优先抓取;

顺畅稳定的抓取是网站获得搜索用户、搜索流量的重要前提,影响抓取的关键因素,站长可以通过本章节了解。

3.1.1 URL规范

网站的URL如何设置,可参考2.3.1中的URL设置规范

3.1.1.1 参数

URL中的参数放置,需遵循两个要点:

√ 参数不能太复杂;

√ 不要用无效参数,无效参数会导致页面识别问题,页面内容最终无法在搜索展示

另外,很多站长利用参数(对搜索引擎和页面内容而言参数无效)统计站点访问行为,这里强调下,尽量不要出现这种形式资源,例如:

https://www.test.com/deal/w00tb7cyv.html?s=a67b0e875ae58a14e3fcc460422032d3

或者:

http://nmtp.test.com/;NTESnmtpSI=029FF574C4739E1D0A45C9C90D656226.hzayq-nmt07.server.163.org-8010#/app/others/details?editId=&articleId=578543&articleType=0&from=sight

3.1.2 链接发现

3.1.2.1 百度蜘蛛

很多站长会咨询如何判断百度移动蜘蛛,这里推荐一种方法,只需两步,正确识别百度蜘蛛:

查看UA

如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:

移动UA 1:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+2019/20190426A/F0120349 search/ spider.html)

移动UA 2:

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +2019/20190426A/F0120349search/spider.html)

PC UA 1:

Mozilla/5.0 (compatible; Baiduspider/2.0;+2019/20190426A/F0120349search/spider.html)

PC UA 2:

Mozilla/5.0(compatible;Baiduspider-render/2.0;+2019/20190426A/F0120349search/ spider.html)

反查IP

站长可以通过DNS反查IP的方式判断某只蜘蛛是否来自百度搜索引擎。根据平台不同验证方法不同,如Linux/Windows/OS三种平台下的验证方法分别如下:

在Linux平台下,可以使用hostip命令反解IP来判断是否来自百度蜘蛛的抓取。百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即为冒充。

这里需要再提出一点,建议使用DNS更换为8.8.8.8后进行nslookup反向解析,否则很容易出现无返回或返回错误的问题。

在Windows平台下,可以使用nslookup ip命令反解IP来判断是否来自百度蜘蛛的抓取。打开命令处理器输入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析IP,来判断是否来自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即为冒充。

在Mac OS平台下,网站可以使用dig命令反解IP来判断是否来自百度蜘蛛的抓取。打开命令处理器输入dig xxx.xxx.xxx.xxx(IP地址)就能解析IP,来判断是否来自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。

3.1.2.2 链接提交

链接提交工具是网站主动向百度搜索推送数据的工具,网站使用链接提交可缩短爬虫发现网站链接时间,目前链接提交工具支持四种方式提交:

√ 主动推送:是最为快速的提交方式,建议将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度抓取;

√ Sitemap:网站可定期将网站链接放到Sitemap中,然后将Sitemap提交给百度。百度会周期性的抓取检查提交的Sitemap,对其中的链接进行处理,但抓取速度慢于主动推送;

√ 手工提交:如果不想通过程序提交,那么可以采用此种方式,手动将链接提交给百度;

√ 自动推送:是轻量级链接提交组件,将自动推送的JS代码放置在站点每一个页面源代码中,当页面被访问时,页面链接会自动推送给百度,有利于新页面更快被百度发现。

简单来说:建议有新闻属性站点,使用主动推送进行数据提交;新验证平台站点,或内容无时效性要求站点,可以使用Sitemap将网站全部内容使用Sitemap提交;技术能力弱,或网站内容较少的站点,可使用手工提交方式进行数据提交;最后,还可以使用插件方式,自动推送方式给百度提交数据。

3.1.3 网页抓取

3.1.3.1 访问速度

关于移动页面的访问速度,百度搜索资源平台(原百度站长平台)已于2017年10月推出过闪电算法,针对页面首页的打开速度给予策略支持。闪电算法中指出,移动搜索页面首屏加载时间将影响搜索排名。移动网页首屏加载时间在2秒之内的,在移动搜索下将获得提升页面评价优待,获得流量倾斜;同时,在移动搜索页面首屏加载非常慢(3秒及以上)的网页将会被打压。

对于页面访问速度的提速,这里也给到几点建议:

资源加载:

√ 将同类型资源在服务器端压缩合并,减少网络请求次数和资源体积;

√ 引用通用资源,充分利用浏览器缓存;

√ 使用CDN加速,将用户的请求定向到最合适的缓存服务器上;

√ 非首屏图片类加载,将网络带宽留给首屏请求。

页面渲染:

√ 将CSS样式写在头部样式表中,减少由CSS文件网络请求造成的渲染阻塞;

√ 将Java放到文档末尾,或使用异步方式加载,避免JS执行阻塞渲染;

√ 对非文字元素(如图片,视频)指定宽高,避免浏览器重排重绘;

希望广大站长持续关注页面加载速度体验,视网站自身情况,参照建议自行优化页面,或使用通用的加速解决方案(如MIP),不断优化页面首屏加载时间。

了解MIP-移动网页加速器可参考:2019/20190426A/F0120353.html

3.1.3.2 返回码

HTTP状态码是用以表示网页服务器HTTP响应状态的3位数字代码。各位站长在平时维护网站过程中,可能会在站长工具后台抓取异常里面或者服务器日志里看到各种各样的响应状态码,有些甚至会影响网站的SEO效果,例如重点强调网页404设置,百度搜索资源平台(原百度站长平台)中部分工具如死链提交,需要网站把内容死链后进行提交,这里要求设置必须是404。

下面为大家整理了一些常见的HTTP状态码:

301:(永久移动)请求的网页已被永久移动到新位置。服务器返回此响应(作为对GET或HEAD请求的响应)时,会自动将请求者转到新位置。

302:(临时移动)服务器目前正从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。此代码与响应GET和HEAD请求的301代码类似,会自动将请求者转到不同的位置。

这里强调301与302的区别:

301/302的关键区别在于:这个资源是否存在/有效;

301指资源还在,只是换了一个位置,返回的是新位置的内容;

302指资源暂时失效,返回的是一个临时的代替页(例如镜像资源、首页、404页面)上。注意如果永久失效应当使用404。

有时站长认为百度对302不友好,可能是误用了302处理仍然有效的资源;

400:(错误请求)服务器不理解请求的语法;

403:(已禁止)服务器已经理解请求,但是拒绝执行它;

404:(未找到)服务器找不到请求的网页;

这里不得不提的一点,很多站长想自定义404页面,需要做到确保蜘蛛访问时返回状态码为404,若因为404页面跳转时设置不当,返回了200状态码,则容易被搜索引擎认为网站上出现了大量重复页面,从而对网站评价造成影响;

500:(服务器内部错误)服务器遇到错误,无法完成请求;

502:(错误网关)服务器作为网关或代理,从上游服务器收到了无效的响应;

503:(服务不可用)目前无法使用服务器(由于超载或进行停机维护)。通常,这只是一种暂时的状态;

504:(网关超时)服务器作为网关或代理,未及时从上游服务器接收请求。

3.1.3.3 robots

robots工具的详细工具使用说明,细节参考4.3.4robots工具章节,关于robots的使用,仅强调以下两点:

√ 百度蜘蛛目前在robots里是不支持中文的,故网站robots文件编写不建议使用中文字符;

√ robots文件支持UrlEncode编码这种写法,如:http://www.test.cn/%E7%89%B9%E6%AE%8A:%E6%B5%8F%E8%A7%88/%E7%94%9F%E6%AD%BB%E7%8B%99%E5%87%BB:%E7%99%BD%E9%93%B6%E5%8A%A0%E7%89%B9%E6%9E%97

3.1.3.4 死链

当网站死链数据累积过多,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。

百度搜索资源平台(原百度站长平台)推出死链提交工具,帮助网站提交死链数据,死链提交工具使用参考4.3.2死链提交工具。

什么是死链及死链的标准

页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,比较常见死链形式共有3种,协议死链和内容死链是比较常见两种形式,除此之外还有跳转死链。

√ 协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等;

√ 内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面;

√ 跳转死链:指页面内容已经失效,跳转到报错页,首页等行为。

3.1.4 访问稳定性

访问稳定性主要有以下几个注意点:

DNS解析

DNS是域名解析服务器,关于DNS,这里建议中文网站尽可能使用国内大型服务商提供的DNS服务,以保证站点的稳定解析。

分享一个DNS稳定性的示例:

搜索资源平台(原站长平台)曾收到多个站长反馈,称网站从百度网页搜索消失,site发现网站数据为0。

经追查发现这些网站都使用国外某品牌的DNS服务器 *.DOMAINCONTROL.COM,此系列DNS服务器存在稳定性问题,百度蜘蛛经常解析不到IP,在百度蜘蛛看来,网站是死站点。此前也发现过多起小DNS服务商屏蔽百度蜘蛛解析请求或者国外DNS服务器不稳定的案例。因此这里建议网站,谨慎选择DNS服务。

蜘蛛封禁

针对爬虫的封禁会导致爬虫认为网站不可正常访问,进而采取对应的措施。爬虫封禁其实分两种,一种就是传统的robots封禁,另一种是需要技术人员配合的IP封禁和UA封禁;而绝大多数情况下的封禁都是一些操作不当导致的误封禁,然后在搜索引擎上的反应就是爬虫不能正常访问。所以针对爬虫封禁的操作一定要慎重,即使因为访问压力问题要临时封禁,也要尽快做恢复处理。

服务器负载

抛开服务器硬件问题(不可避免),绝大多数引起服务器负载过高的情况是软件程序引起的,如程序有内存泄露,程序出core,不合理混布服务(其中一个服务消耗服务器资源过大引起服务器负载增大,影响了服务器对爬虫访问请求的响应。)对于提供服务的机器一定要注意服务器的负载,留足够的buffer保证服务器具有一定的抗压能力。

其他人为因素

人为操作不当引起访问异常的情况是经常见到的,针对这种情况需要严格的制度约束,不同站点情况不一样。需要保证每一次的升级或者操作要准确无误。

3.1.5 可访问链接总量

3.1.5.1 资源可穷尽

一般来说网站的内容页面是可穷尽的,万级别,百万级别甚至亿级别,但一定是可穷尽的。而现实中确实存在这样一些网站,爬虫针对这些网站进行抓取提链时会陷入”链接黑洞”;通俗的讲就是网站给爬虫呈现的链接不可穷尽;典型的是部分网站的搜索结果页,不同的query在不同anchor下的a标签链接不一样就导致了”链接黑洞”的产生,所以严禁URL的生成跟用户的访问行为或者搜索词等因素绑定。

3.2 页面解析

页面解析,主要指网站页面被蜘蛛抓取,会对页面进行分析识别,称之为页面解析。页面解析对网站至关重要,网站内容被抓取是网站被发现的第一步,而页面解析,则是网站内容被识别出来的重要一环,页面解析效果直接影响搜索引擎对网站的评价。

3.2.1 页面元素

3.2.1.1 页面标题

关于网页标题,百度搜索于2017年9月推出清风算法,重点打击网站标题作弊,引导用户点击,损害用户体验的行为;清风算法重点打击的标题作弊情况有以下两种:

√ 文不对题,网站标题与正文有明显不符合,误导搜索用户点击,对搜索用户造成伤害;

√ 大量堆砌,网站标题中出现大量堆砌关键词的情况也十分不提倡,

关于网站标题作弊的详细解读,参考搜索学院发布官方文档《百度搜索内容质量白皮书——网页标题作弊详解》。

关于网站TDK,有以下几种情况需要注意:(”T”代表页头中的title元素,”D”代表页头中的deion元素,”K”代表页头中的keywords元素,简单指网站的标题、描述和摘要);

√ 百度未承诺严格按照title和deion的内容展示标题和摘要,尤其是摘要,会根据用户检索的关键词,自动匹配展示合适的摘要内容,让用户了解网页的主要内容,影响用户的行为决策;

√ 站长会发现同一条链接的摘要在不同关键词下是变化的,可能不会完全符合站长预期,尤其是站长在检索框进行site语法操作时,可能会感觉摘要都比较差。但请不要担心,毕竟绝大多数普通网民不会这样操作。在此情况下出现不符合预期的摘要并不代表站点被惩罚;

√ 还有一种情况,是网页中的HTML代码有误,导致百度无法解析出摘要,所以有时大家会看到某些结果的摘要是乱码(当然这种情况很少见),所以也请站长注意代码规范。

3.2.1.2 主体内容

主体内容注意两个点,一个主体内容过长(通常网页源码长度不能超过128k),文章过长可能会引起抓取截断;另外一个是注意内容不能空短,空短内容也会被判断为无价值内容。

以下分析两个示例:

关于主体内容过长的示例分析:

某网站主体内容都是JS生成,针对用户访问,没有做优化;但是网站特针对爬虫抓取做了优化,直接将图片进行编码推送给百度,然而优化后发现内容没有被百度展示出来;

页面质量很好,还特意针对爬虫做了优化,为什么内容反而无法出现在百度搜索中;

分析主要有以下原因:

√ 网站针对爬虫爬取做的优化,是直接将图片编码后放到HTML中,导致页面长度过长,网站页面长度达164k;

√ 站点优化后将主体内容放于最后,图片却放于前面;

√ 爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不建索引。

这样的情况给到以下建议:

√ 如站点针对爬虫爬取做优化,建议网站源码长度在128k之内,不要过长;

√ 针对爬虫爬取做优化,请将主体内容放于前方,避免抓取截断造成的内容抓取不全。

关于内容空短的示例分析:

某网站反馈网站内容未被建索引,分析发现,网站抓取没有问题,但被抓取到的页面,都提示需要输入验证码才能查看全部页面,这类页面被判断为空短页面,这类页面在抓取后,会被判定为垃圾内容。

而且当蜘蛛对一个网站抓取后发现大面积都是低值的空短页面时,爬虫会认为这个站点的整体价值比较低,那么在后面的抓取流量分布上会降低,导致针对该站点的页面更新会比较慢,进而抓取甚至建索引库也会比较慢。

为什么会出现网站内容空短这种情况,其中一个原因是网站内容未全部搭建完成,未对外开放,但已被蜘蛛爬取发现。针对这种情况,建议网站在邀请测试阶段使用robots封禁。

另外还会有些网站,设置用户查看权限,如需用户登陆才能查看全部内容,这样的行为对搜索引擎也极不友好,蜘蛛无法模拟用户登陆,仅能抓取网站已展示页面,可能会导致抓取页面为空短的现象。

这里再次强调,不要让爬虫给站点画上不优质的标签,对网站将产生很不好的影响。另外,移动端的H5页面,很多都是采用JS方式加载,其实是更容易产生空短,请各位站长注意。

3.2.1.3 网页发布时间

关于网页发布时间,有以下几点建议:

√ 网页内容尽可能加上产出时间,严格说是内容发布时间;且时间尽量全,时间格式为年-月-日 时:分:秒;

例:2017-08-12 10:23:06

√ 网页上切忌乱加时间,这样容易造成页面时间提取问题,或搜索引擎判断提取时间不可信,从而降低对网页的展现。

3.2.1.4 canonical标签

canonical标签的目的

在PC互联网时代,canonical标签的作用主要是用来解决由于网址形式不同内容相同而造成的内容重复问题。而在移动时代,canonical标签被百度搜索赋予了更多的意义,在原来的作用基础上,又起到了相同内容的移动页和PC页之间的关联作用;让移动资源更容易继承PC资源的各种特征,从而快速生效移动网页数据。

canonical标签如何设置

在HTML代码的head里添加rel=”canonical”,不能添加多个,否则搜索引擎会认为是无效的canonical标签。另外需要注意href里的地址不能是死链,错误页或者被robots封禁的页面。

具体示例如下:

<link rel=”canonical” href=”http://example.test.com/recipe41644.html”>

3.2.2 落地页体验

为提升移动搜索整体用户体验,提升搜索满意度,百度搜索在2017年推出《百度移动搜索落地页体验白皮书——广告篇2.0》(以下简称广告白皮书)。广告白皮书对网站移动落地页页面广告内容、广告位置、大小等做了明确要求,从而充分保证搜索用户的浏览体验。

白皮书详情,请参考搜索学院官方文档《百度移动搜索落地页体验白皮书——广告篇2.0》

3.3 页面价值

3.3.1 内容价值

原创文章,要求是独立完成的创作,且没有歪曲、篡改他人创作或者抄袭、剽窃他人创作而产生的作品,对于改编、注释、整理他人已有创作而产生的作品要求有充分的点评、补充等增益信息。

建议原创文章在标题下方明确注明“来源:xxxx(本站站点名)”或“本站原创”之类字样,转载文章明确注明“来源:xxxx(转载来源站点名)”之类字样,不建议使用“admin”、“webmaster”、“佚名”等模糊的说法。

3.3.2 外链建设

通常认为,外链是本站点对第三方站点页面的链接指向,是本站点对第三方站点页面内容的一种认可和推荐。

站点进行外链建设时,建议是有真实推荐意图,并且指向那些熟悉的、被认可的、内容相关的外部页面;不建议推荐与本站点页面内容无关的外链内容。也不建议乱推荐外链、交换外链互联、指向作弊站的行为(这些很可能被超链策略反向识别成垃圾作弊站点进行打压)。

最后,站长要及时发现和处理站点被黑的页面。页面被黑掉后,一般会被人为放入大量无关的,甚至作弊的外链在该页面上,其目的是要瓜分站点自身权重,并以此来提高外链目标站点影响力。建议站长发现后,及时向搜索资源平台(原站长平台)提交死链进行删除和屏蔽,不及时处理一定程度上会影响站点本身的权重。最好从技术上优化,提高站点安全壁垒,防范于未然。

3.3.3 内链建设

内链,描述了站点的结构,一般起到页面内容组织和站内引导的作用;内链的重要意思是通过链接指向,告诉搜索引擎哪个页面最为重要。

内链组织的时候,建议结构清晰,不要过于冗杂,另外内链组织的版式建议保持一致,这样对搜索引擎超链分析比较友好。

与外链类似,建议站长善于使用nofollow标签,既对搜索引擎友好,又可避免因垃圾link影响到站点本身的权重。

3.3.4 anchor

anchor描述:尽可能使用典型的,有真实意义的anchor。anchor描述要与超链接的页面内容大致相符,避免高频无意义anchor的使用,另外同一个URL的anchor描述种类不宜过多,anchor分布越稀疏会影响搜索排名。

4 百度专属SEO工具

4.1 百度搜索资源平台(原百度站长平台)介绍

百度搜索资源平台(原百度站长平台)是全球最大的面向中文互联网管理者、移动开发者、创业者的搜索流量管理的官方平台。提供有助于搜索引擎数据查询及优化的工具、SEO建议、多端适配服务的能力等。

百度搜索资源平台域名地址:http://ziyuan.baidu.com/

4.2 查询工具

4.2.1 索引量工具

网站的索引量指该网站在百度搜索上,可以被用户搜索到的链接总量。百度蜘蛛通过抓取发现网站内容,进行页面解析,对有价值内容建立索引库,最终使搜索用户可以搜索到网站内容。

网站被百度蜘蛛抓取后,经过一系列计算才得以建入索引库,有了和搜索用户见面的机会。所以,索引量一直是站长们关注的焦点,但关于索引量工具有一些误读,这里给到正确解答:

√ 索引量不等于网站流量:索引库分多个层级,进入上层索引库才有更多与搜索用户见面的机会;进入下层库机会渺茫。所以,索引量总体的增加减少并不能说明流量会有什么变化;

√ 索引量变化不直接影响流量变化:当流量发生巨大变化时,索引量数据可以作为排查原因的渠道之一,但不是唯一排查渠道,索引量变化并不直接影响流量变化;

√ 索引量浮动情况,索引量上下浮动10%(经验值),甚至更多,都可能属于正常。只要流量变化不大就不用紧张。

4.2.2 流量与关键词工具

流量与关键词工具提供站点的热门关键词在百度搜索结果中的展现及点击量数据,通过对关键词表现情况的监控,帮助网站更好进行优化,流量与关键词工具可全面帮助站长了解网站在百度搜索引擎中的表现,决定页面及网站的优化方向,为网站运营决策提供分析依据。

关于流量与关键词工具,还有一点需要强调,如果站长需要在反馈中心中提交关于网站流量异常的情况,请使用此工具的数据、及数据截图作为证据,便于工作人员分析网站问题。

4.2.3 抓取频次工具

什么是抓取频次

抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,百度蜘蛛会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。

什么情况下可以进行抓取频次上限调整:

首先,百度蜘蛛会根据网站服务器压力自动进行抓取频次调整;

其次,如果百度蜘蛛的抓取影响了网站稳定性,站长可以通过此工具调节百度蜘蛛每天抓取网站的频次上限。

强调1:调整抓取频次上限不等于调高抓取频次;

强调2:建议站长慎重调节抓取频次上限值,如果抓取频次过小则会影响百度蜘蛛对网站的及时抓取,从而影响索引。

4.2.4 抓取诊断工具

什么是抓取诊断

抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。每个站点每周可使用200次,抓取结果只展现百度蜘蛛可见的前200KB内容。

抓取诊断工具能做什么

目前抓取诊断工具有如下作用:

√ 诊断抓取内容是否符合预期,譬如很多商品详情页面,价格信息是通过Java输出的,对百度蜘蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验;

√ 诊断网页是否被加了黒链、隐藏文本。网站如果被黑,可能被加上隐藏的链接,这些链可能只在百度抓取时才出现,需要用此抓取工具诊断。

4.2.5 抓取异常工具

什么是抓取异常

百度蜘蛛无法正常抓取,就是抓取异常。通常网站出现抓取异常,都是网站自身原因造成,需要网站根据工具提示,尽快自查网站问题并解决。

抓取异常对网站有哪些影响

对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、搜索评价上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

抓取异常的原因有哪些

● 网站异常

√ DNS异常:当百度蜘蛛无法解析网站的IP时,会出现DNS异常。可能是网站IP地址错误,或者域名服务商把百度蜘蛛封禁。请使用whois或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新网站IP地址;

√ 连接超时:抓取请求连接超时,可能原因服务器过载,网络不稳定;

√ 抓取超时:抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足;

√ 连接错误:无法连接或者连接建立后对方服务器拒绝。

● 链接异常

√ 访问被拒绝:爬虫发起抓取,httpcode返回码是403;

√ 找不到页面:爬虫发起抓取,httpcode返回码是404;

√ 服务器错误:爬虫发起抓取,httpcode返回码是5XX;

√ 其他错误:爬虫发起抓取,httpcode返回码是4XX,不包括403和404。

4.3 提交工具

4.3.1 链接提交工具

目前一共有4种提交方式,分别是主动推送、Sitemap、手工提交和自动推送,这四种推送方式的区别,请看下图:

建议有新闻属性站点,使用主动推送进行数据提交;新验证平台站点,或内容无时效性要求站点,可以使用Sitemap将网站全部内容使用Sitemap提交;技术能力弱,或网站内容较少的站点,可使用手工提交方式进行数据提交;最后,还可以使用插件方式,自动推送方式给百度提交数据。

使用链接提交工具,还需要注意的是,部分网站会采用第三方插件推送数据,插件推送方式需要站长仔细检查推送逻辑,之前发生过站长使用第三方插件推送数据,而第三方插件采用域名+标题进行推送,这样导致推送给百度的URL中存在中文字符,带有中文字符的URL会301跳转到真实的URL上,出现此类情况,是无法享受快速抓取优待的。

链接提交工具可以快速帮助站点实现内容抓取,使用第三方插件可以快速帮助站长解决推送的问题,站长只需在选择插件时,仔细检查下插件数据逻辑,否则推送错误数据,网站数据无法享受快速抓取优待。

4.3.2 死链提交工具

为什么要使用死链工具

当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。

注意事项:

√ 请推送协议死链数据,死链工具仅支持协议死链数据;

√ 提交死链被删除后,网站可以删除已提交的死链文件,否则搜索仍会继续抓取死链文件,确认文件中内容。

什么是死链规则提交?

死链规则是链接前缀,且匹配前缀的链接全部是死链。

目前支持两种死链规则:

√ 目录规则:以“/”结尾的前缀;

√ CGI规则:以“?”结尾的前缀。

什么是死链文件提交?

√ 站长需要提交已被百度建索引的、且需要删除的链接,如链接在百度搜索不到,则可以不提交死链;

√ 需要删除的链接需要全部设置为404,如发现有链接非死链,会导致文件校验失败,从而无法删除死链;

√ 如死链文件抓取失败,可以通过抓取诊断工具判断死链文件是否可以正常抓取;

谷歌推出 病症搜索 :让你生病不用上医院

近日,谷歌手机端开发了一种“病症搜索”功能,以后有个什么头疼发热的不用上医院啦!

这么神奇?浏览器能看病?

其实并不是谷歌浏览器能够看病,而是当用户在浏览器上搜索病症时,也就是谷歌所说的“病症搜索”,浏览器会给用户展示专业的医疗信息,帮助其进行自我诊断,不要自己吓自己,不仅如此,这种方式还可以促进医患沟通,减少误解。

前段时间百度“魏泽西事件”引发了一场对搜索引擎和民营医院的全民级大争论,很多人开始怀疑“网上病症搜索”的真实性,并且开始排斥搜索引擎推荐的各类推广医院,百度一时间成为公众情绪的宣泄口,虽然即时应对危机,对推广广告进行了下架整改,但还是带来了不小的风波,股价也应声下跌,搜索引擎类信息平台的商业模式开始被重新探讨。

不管谷歌是不是做给百度看的,我们都应该欣慰,信息搜索平台已经开始反思自己的商业模式,在疾病搜索这块有了更人性化的方式。

具体的服务内容是:当你再使用iPhone或Android版谷歌搜索应用查询“肚子疼”、“皮疹”、“偏头痛”等病症时,就会在搜索框的右下方看到6张数字卡片,每一张卡片都大致描述了与这项搜索结果相关的常见健康问题。

这些病症搜索卡片是谷歌与哈佛医学院和梅奥诊所合作开发的,只要可能,这些卡片还会告知用户,是否可以通过各种方法进行自我治疗,或者相关的健康问题是否严重到必须寻求专业医生的帮助。在卡片下面,用户则会看到传统的网站链接列表。

来看看各方专家怎么评价:

1

<h2>谷歌搜索团推产品经理维罗妮卡·品金:</h2>

我们不能取代医生为病人作出诊断并提供治疗建议,但我们希望能够帮助他们改善沟通效率。我们的一大重点是降低这些信息的获取难度,希望让其成为一个所有人都能理解的语言,而不仅限于医生。”

谷歌在全球范围内的搜索请求约有1%与病症有关,所以该公司针对数百万不同的搜索关键词创建了数百万张卡片。但这并不意味着每次都能显示正确的卡片。“由于这只是一个算法,所以并不完美。但我们会逐渐扩大它的覆盖范围,改进信息的精确度。”

2

<h2>约翰霍普金斯大学医学院助理教授兼执业医师赛斯·马汀(Seth Martin)表示:</h2>

互联网上充斥着各种并不精准的医疗建议,而繁忙的医生经常会碰到一些庸人自扰的病人。“我们都见过这样的病人,他们会从网上找到一些信息,但这些信息其实都是错误的。发生这种情况后,想要让病人理解真正的病情就需要花费更大的力气。”

3

<h2>美国家庭医生学会主席万达·菲乐(Wanda Filer):</h2>

谷歌早就应该改进与健康相关的搜索功能,这种做法令人鼓舞。“很多时候,人们会被网上的信息吓得魂飞魄散。所以,如果这些谷歌卡片能增加一些背景信息,那就可以为医生和病人带来莫大的帮助。”

她表示,如果病人能将谷歌病症搜索的截屏发给医生,那就会更有帮助。“能够了解病人所掌握的信息,可以帮助我们更好地找到对话的切入点。没有一种网上信息能够取代医生的诊断,但却可以提供一些补充。”

病症搜索起初只面向美国的英语用户,可以通过谷歌的iOS和Android应用,以及手机和平板电脑上的Google.com使用该服务。谷歌计划将其引入桌面浏览器,并面向国际市场推出更多语言版本。

据悉,未来这项功能还会融合进Google Home(是谷歌发布的智能家居产品,可以通过语音控制家庭设备,于2016年5月19日正式发布。)

谷歌的数字助手会变身临时医生,它不但可以通过你的症状诊断疾病,还能在紧急时刻提供急救引导。当然,眼下该功能与Google Home的融合暂时还是理论上的,不过如果该功能成真,谷歌在与亚马逊Echo的竞争中肯定能占得先机。

汇集31万行业大咖,有种、有料、有视角的互联网原创平台,关注“互联网新鲜事”公众平台(webtech)还可免费领取200本经典行业电子书籍哦!

首次公开 阿里搜索中台开发运维一体化实践

阿里妹导读:2015年底,阿里宣布启动阿里巴巴集团中台战略。战略定义为:构建符合DT时代的更具创新性、灵活性的“大中台、小前台”组织机制和业务机制。其中,前台作为一线业务,更敏捷更快速适应市场,中台将集合整个集团的数字运营能力、产品技术能力,对各业务前台形成强力支撑,而集团在中台布局中一个非常重要的一环便是搜索中台化,但因搜索技术本身的复杂度和业务规模的挑战,让搜索中台在技术上、产品上都遇到了世界级的挑战。

面对挑战,阿里选择走上中台开发运维一体化实践之路。这条路究竟要怎么走?下面跟随阿里搜索事业部高级技术专家柳明,一起来了解。

背景

阿里搜索中台的初心是支持前台业务更敏捷更快速适应市场的变化,愿景是让天下没有难用的搜索,基于初心和愿景我们从0到1建设搜索中台3年,三年期间在DevOps、AIOps、offline平台化上都有了不少业内前沿的沉淀,而我作为一名阿里搜索老兵,有幸见证了整个阿里搜索中台的技术发展,所以在这里通过一些我个人有限的经验跟大家去分享一个后端服务该如何解决规模化、成本、效率、质量问题,朝着平台化产品前进的经验。

搜索中台技术发展

下图即是搜索中台从技术角度发展趋势的一个判断,也是经过3年多落地实践的一个过程。

可以从图上看到第一个阶段应该是我加入阿里的时候,无论是搜索事业部还是开源搜索技术都是靠人来负责系统和业务运维。当时人力资源是随着业务规模成正比增长的,这期间消耗了大量的人力资源在做着低效而重复工作,这是人工管控的阶段。

之后随着经验沉淀,PE逐渐发现一些常见重复的运维工作可以通过自动化脚本实现,在一定程度上减少了人力成本,提高了运维效率,也初步有了专家经验和领域知识沉淀的影子,这是自动化脚本运维阶段,这也是绝大部分开源技术体系所处的阶段。但是这样的运维方式天然地分割了开发和运维两种角色。

因为大家的使命不同,让两种角色天然的站在了对立面上,开发希望快速迭代,运维希望尽可能保障线上稳定而减少迭代次数,因为大家都知道绝大部分线上故障都其实是因为配置变更和软件升级导致的,天然的分割造成了相互之间存在着对对方的不信任,所以也就有了双方最后的妥协:固定每周周二和周四的发布窗口进行发布,但这是牺牲了业务运营效率为前提的。其实这里存在了一个系统能力和业务方迭代需求上的一个很大gap,为了解决上述矛盾基于运维开发一体化的devOps概念的全新管控系统建设应运而生,也就有了第一阶段的开发运维一体化的建设,通过这些ops也较好地解决一些发布迭代问题。

但是我们的业务场景天然是一个技术体系的管控,所以我们认为devops不应该还停留在单个系统开发运维一体化的方法论认知上,所以希望我们的devops的定义是单个系统ops之上的“ops”,所以本质上我们和集团其他所谓的devOps平台有着非常大本质上的区别。

集团比较有代表性devops平台就是天基平台,它主要解决的是服务源代码到部署再到升级的一个全过程的管理,面向的用户本质上还是运维人员。所以在这个基础上,天基利用IAC(Infrastructure As Code,基础设施即代码)的维度+Git管理部署配置去打造产品其实已经足够,这是一种典型devops的平台设计思路,但是仅仅如此的设计其实对于我们来讲也许并不够,因为对于我们来说我们的用户是最终用户,他并不具备线上系统运维专业知识,只看到配置或者code,他一定会晕菜。

所以从根本上来讲我们需要将对DevOps理解上继续往前走一步,朝着面向平台产品化的角度上前进一步:一是对用户屏蔽配置或者code或者领域知识复杂度,二是将系统协同变成一种端对端体验的管控,因为只有做到了简化复杂度和全链路端对端体验的管控才能真正让复杂搜索业务迭代效率得到本质上的提升,为了达成上述2个目标我们经过多年努力逐步落地了sophon、bahamut、Maat等系统,也取得了很好的业务迭代效率提升。

但只做到DevOPS对于阿里这样体量的平台就完美了吗?显然不是,全链路的DevOps只是有效解决了研发、PE、用户配合效率和用户使用体验的问题,但是对于平台方来讲随着业务规模的急剧膨胀,以及搜索服务类型的复杂多样及多变,业务跟平台的矛盾其实又发生了本质性的转移:如何给在海量规模下为每个业务提供更好的稳定性保障和合理的资源利用率、以及更高的迭代效率等就成为了我们平台新目标。

目前我们基于在AIOPS数据化运营的3年实践中落地了Hawkeye -在线服务优化平台、Torch-容量治理平台、Heracles-日常压测服务化平台、CostMan-成本服务等系统。这些服务系统帮助平台在容量管理,日常巡检、一键诊断优化上取得了一定的阶段性成果,也让我们对未来统一集团搜索运维管控,业务数量即使超过10000+规模效应下平台也能应对自如,树立了坚定的信心。

虽然经过3年的数据化运营的实践,但我们离真正的AIOps还有较远距离,因为之前我们的性能瓶颈分析、问题诊断、故障自愈、复杂运维决策主要还是停留在专家经验沉淀上,说白了还是把人的经验沉淀到系统来解决线上运维的问题,而AIOPS期待的是用数据和算法能力帮我们自动地发现规律问题并解决问题,从这点上看AIOps在我们的平台依然还有非常多的潜力可挖,所以我们希望未来在效率提升、质量保障、成本优化上能真正借助AI的能力帮平台更好地适应未来的发展。

搜索中台开发运维一体化实践-Sophon

开发运维一体化-DevOPS

在我们介绍开发运维一体化-sophon的系统前,我们先看看一个稍微复杂搜索场景的业务接入时需要涉及到的系统以及他们是如何协调工作的。

从上图其实大家看到整个系统模块大致分为3大模块,OPS、Online、Offline。其中如图所示Ops层很明显分成了在线有状态服务ops、在线无状态服务ops和离线ops。

就是说每个服务都是单独OPS进行单独管控,但实际上如上图所示一个复杂业务就是一个多服务体系协同的结果,所以在我的记忆里当tisplus没上线前,我们接入复杂业务之前第一件事情就是召集在线有状态服务团队、在线无状态服务团队、离线DUMP团队、业务方、PE开个会互通下有无,然后安排怎么合作推进这个项目上线,上线后的线上变更和问题处理也是支持群里相互吼:“我已经做完这一步了,你可以做下一步了”,“你稍等下再操作,我还要重新发下”。所以可以想象这样的业务接入合作效率得有多低,相信大家从我刚才的描述中也能知道为啥我们之前支持10来个业务已经是极限的原因了吧。

有了这些痛点需求,那再回过头来说说我们我们在实践过程中认为复杂搜索系统的devops建设必须有:

  1. 提供端对端体验的全链路OPS才是我们认为符合我们场景的devops标准定义。
  2. 复杂的运维管控链路中基于我们常识认知的过程式运维方式需要升级到基于目标驱动式的运维管控。
  3. 较好的运维抽象及产品抽象,更好的赋能用户。
  4. 提高业务迭代效率必须是保障业务稳定性为基础。

有了这些需求痛点,也就有了我们在这个领域的技术平台布局-Sophon,接下来我们将分章节详细介绍下该系统。

搜索中台devops实践-Sophon

目标驱动式运维

什么叫基于目标驱动式的运维?其实乍一听,会觉得太过于抽象,其实如果听完我的解释,你会觉得非常简单,我们举个实际搜索的运维场景来说明也许更容易明白为什么我们要提倡基于目标的运维管控。

比如我们的搜索系统现在的索引版本是A版本,然后要求系统执行切换索引B版本,但正在rollingB版本的时候,我后悔了我要rolling C 版本。这其实在早些年的时候,线上这种状况是非常让人崩溃的,如果这事让PE去做的话 , 只能杀掉切换流程,检查系统每个节点到哪一步了,清理中间状态,重新发起运维流程,可以想象过程式的运维管控方式在复杂运维体系下是多么低效的事情。

但如果是基于目标驱动的调度,我们只需要重新给系统设定新的rolling C版本,那么系统将会获得最新目标和当前执行渐进的目标进行对比,发现目标状态存在变化,系统会马上终止掉当前执行路径和自动清理系统存在的不一致状态,开始下放最新目标状态关键路径执行通知,各个节点接受到最新命令后开始逐步向新的目标渐进,所以只看最终状态的渐进式最终一致性运维方式自然而然屏蔽了运维中间状态的复杂性,让复杂运维管控变得更加简单更灵活,这也是为什么我们平台自上而下所有的运维方式都升级成了基于目标驱动的原因。

运维概念简化

我们平台一直提到从托管到赋能,言下之意是希望让最终用户承担起自己应当要承担的责任才能享受更强大的搜索能力。但谈到要赋能,那也不能将搜索系统复杂的领域知识和运维概念直接暴露给最终用户,否则这肯定不叫赋能用户,而是叫做折腾用户了。所以如何将系统的运维概念简化,将复杂和潜在领域知识留给系统内部就是sophon需要解决的核心问题之一。

上图下方是从PE视角看到的各个数据中心的基础设施和各种在线服务,如果没有一层管控抽象,让最终用户和PE看到的是一样的复杂度,我相信用户一定会晕菜。

所以sophon做的一个事情就是将运维管控对象抽象成一组数据关系模型,也就是运维管控模型,如上图右侧所示,但是这一层运维抽象依然足够复杂,用户不应该也不需要去了解这层运维抽象,我们应该给用户看到的是触达业务场景的业务抽象,所以sophon在第一层运维抽象之上又抽象了业务抽象,如左上角的三层概念:业务逻辑(插件、配置)、服务(部署关系)、数据(数据源&离线数据处理)。这层的定义用户是几乎无成本就能接受的,所以通过sophon做到的抽象运维概念和简化业务概念的能力也让我们平台从托管到赋能用户成为了可能。

稳定性保障

sophon保障服务稳定性主要体现在2个方面:

当平台支持越来越多的头部核心业务,我们需要对业务的搜索服务进行SLA保障,同时也能适应各个业务根据自己的稳定性要求进行灵活的在离线服务的部署,同时还需要具备自动容灾切换能力。目前sophon服务稳定性方面能够支持搜索在线服务单元化、在离线服务单元化、离线数据冷备部署以及查询链路和数据回流链路自动容灾切切换的能力,如下图所示:

我们前面提到迭代效率提升有一点就是让原先基于时间窗口的线上发布迭代变成了可以24小时随时随地可以发布,但我们说的随时随地并不是代表我们只是提供了发布按钮功能,而不去考虑快速发布过程可能带来的潜在危险,所以高效且安全的发布迭代才是我们追求的目标,这个背后非常重要的基础就是我们设计和标准化了一套发布迭代规范。

例如一次正常的业务迭代,需要经过日常、预发2套环境进行验证,同时在预发发布线上的发布流程中我们加入了多重校验机制来进行发布的稳定性,比如插件、算法策略升级时,我们会要求clone压测对比,如果性能差距太大,发布流程会被回退,同时基于单机房切流灰度发布和冒烟验证等能力可以在发布流程里被定义,所以有了sophon提供的强大的多重校验机制和快速容灾切换的能力,让业务快速迭代中再也没有了后顾之忧,可以将业务运营迭代效率提升到极致,如下图所示:

专家经验沉淀

搜索技术体系虽然功能强大,但强大的背后也有很多专业潜规则,所以如果平台把复杂的运维管控和业务迭代需要遵循的专业知识暴露给普通用户,用户肯定歇菜,所以我们在devops这层一定要将引擎服务领域知识下沉让平台去屏蔽这些复杂性。

举个真实的搜索场景来说,如果业务方有一个字段的修改,但真实情况下一个字段的修改其实是可能涉及到在线和离线的配置联动修改,换句话说你不能说让用户在修改配置的时候让他判断我这次修改是只会影响到在线服务、还是影响到离线服务,还是在离线服务都会影响到,此外配置推送需要先离线服务生效还是在线服务先生效,还是说配置必须做全量后一起生效等等,这些都是引擎服务的专家知识。

目前我们依靠sophon devOPS这层将这些领域知识都在背后默默消费掉了,用户完全不需要关注这些潜在知识,运维平台内部会分解复杂运维操作,然后会根据我们定义好的专家运维DAG图来有条不紊分阶段的进行运维执行,如下图所示:

通过我们不断将运维专家经验沉淀到系统(运维DAG执行流程图),用户对平台的使用成本会不断变小,同时迭代效率也会越来越高。当然如果运维操作变得越来越复杂(比如我们暴露给用户的业务视角需要涵盖越来越多的服务),运维DAG执行链从简单就会发展到可能存在多种执行分支,那么如何在运维执行中寻找到最优执行链路就会成为一个有趣的话题(如上图右边所示),目前我们称之为最短路径选择,这是智能化运维一个有趣的尝试,这也是未来我们持续努力的方向。

从系统到全链路

前面其实也介绍了我们的所有业务场景都是一个技术体系协同的结果,而这个过程中最重要也最具挑战的点便是如何将在线和离线高效协同提供给用户端对端的体验。

从上图可以看到最终用户使用离线数据永远看到的是可视化数据关系定义和简单的dump->Build->switchindex任务执行列表。但是实际上是我们把所有的复杂度屏蔽掉,系统背后却是有一个复杂的状态机在管控在离线的协同,这张图不打算展开讲,整个在离线协同,状态机不是关键,关键是我们如何将每个在线搜索业务对离线数据处理的个性化需求转换成一种抽象,最后通过平台方式来支撑的。

在展开介绍离线平台技术前,稍微跟大家介绍下一个搜索业务对离线处理的普世需求,而这些需求也是没有离线平台之前支持复杂业务在离线跨团队合作中被重复讨论过多次的话题。那就是到引擎的业务数据并不是一个简单的数据库表,它可能来源于多个同构或者异构数据源,同时每个搜索业务都有全量和增量的需求,所以如何将这些根据业务不同而不同数据源关系处理变成一种高层抽象并且屏蔽内部处理环节和统一增量和全量处理流程就变得非常重要,否则来一个业务我们都要为其实现全量和增量数据处理代码简直是不可忍的事情。

现在来回顾之前我们离线支持效率低的原因还是我们之前对引擎schema定义的数据源都是被弱化成一对对的资源进行抽象和管理,也就导致我们没有把本应该的基础的抽象给提炼出来,其实仔细想下来我们目前接入的所有数据资源都是Dynamic Table,所以如果我们以表的抽象去定义这些资源,那一些通用的类似创建表、删除表、修改表、增删改查表数据,定义表之间关系等API都应该可以被收敛掉而不会存在重复开发问题,所以有了这样一个思考,也就有了我们打造离线组件平台-bahamut的整体设计思路。

平台支持用户在平台画布上定义好各自数据源信息和表之间关系定义后(我们可以支持异构表之间的join,例如odps和mysql),我们会将这个前端的Graph提交给Bahamut进行翻译,bahamut将这个前端的Graph解析、优化、拆分、翻译成成若干个blink可执行的graph,比如增量的syncBlink 、全量的BulkLoad MR任务,和Blink Join 任务等。

这里最重要的两个关键的graph节点是merge和left join。merge是将所有的1:1和1:N关系表的处理通过行转列到一个HBASE中间表,而N:1的关系处理以下图的例子来说,我们目前只支持主表N这边(商品表)驱动,也就是说N这方的通过blink sync更新后利用blink Join合并1这方(即用户表)成完整的行记录发送到SwiftSink(增量)&HDFSSink(全量)最终回流到到BuildService构建索引,如下图所示:

通过在线离线管控协同和BaHamut组件平台的打造,可以让用户通过可视化的手段就能享受到强大的离线复杂数据关系处理和计算能力,极大地提升了业务支持效率,同时也让我们平台成为第一个可以整合离线提供在离线端对端体验的里程碑式的产品。另外我们还在做一件事情将离线能力变成在线服务通用能力,相信不远的将来离线组件平台不会是HA3搜索场景的离线组件平台,而是整个搜索在线服务的离线组件平台。

本文是阿里搜索中台技术系列Devops实践的分享,接下来还会陆续推出搜索离线组件平台、搜索AIOps实践的多篇分享,敬请期待。

搜索中台从0到1建设已经走过了3年,但它离我们心目中让天下没有难用的搜索的远大愿景还离得非常远,在这个前行的道路上一定会充满挑战,无论是业务视角的SaaS化能力、搜索算法产品化、云端DevOps&AIOps,还是业务建站等都将遇到世界级的难题。

无论是web开发,引擎开发还是算法同学,欢迎加入我们阿里搜索中台团队

平台工程师岗位详情:2019/20190426A/F0120323.htm

我们一起让天下没有难用的搜索。

百度回应推 简单搜索 网页版 没有 也不会考虑

  3月25日消息,针对近日热传的无广告“简单搜索”网页版,百度“简单搜索”APP通过其官微回应称,“百度公司并没有推出简单搜索网页版,也并没有相关考虑。”

据百度方面介绍,简单搜索是百度公司2017年推出的一款搭载百度多项人工智能能力的搜索APP。在APP内可以通过语音搜索、图像识别、语音播报等人工智能技术,提升搜索服务的体验和效率,但这些能力受限于PC或手机网页端的形态而难以实现,所以未考虑推出PC版或手机网页版服务。

以下为声明原文:

声明

我们注意到关于“百度推出简单搜索网页版”的,在此特别声明,百度公司没有推出简单搜索网页版。

简单搜索是百度公司2017年推出的一款搭载百度多项人工智能能力的搜索APP。在APP内可以通过语音搜索、图像识别、语音播报等人工智能技术,提升搜索服务的体验和效率,但这些能力受限于PC或手机网页端的形态而难以实现,所以未考虑推出PC版或手机网页版服务。

感谢大家的关注,欢迎大家下载百度APP或简单搜索APP,体验更好更智能的搜索及信息服务。

搜索竞价推广账户的恶意点击分类 判定及处理办法大全-上

提及恶意点击,广告主是深恶痛绝,搜索资源媒体方更是讳莫如深。那么在搜索推广的过程中是否存在恶意点击?答案是必然的!

我看百度百科的解释是这样的:

接下来,老阳带你详细了解恶意点击的各类情况的防范及排查处理办法:

首先:对于大多数广告主口中的竞价广告消费多,点击量大,咨询少而判断出来的“搜索推广都是恶意点击”,这个说法是不正确的!判定恶意点击必须要有一个排除的前提:即无效点击!

仅基于推广账户的消费、点击、转化数据的不良,并不能确定恶意点击是否存在,鉴于搜索引擎广告的匹配方式导致的模糊检索可能带来大量的无效流量,而导致ROI产出较低并不属于恶意点击!因此,此类情况必须排除!

如上图所示, 投放关键词“全自动加料机”匹配搜索词“自动切菜机”带来的流量完全无效,但这并不是恶意点击!除此之外还有一些特定的账户设置功能,会放大消费而带来无效流量。因此此类情况不纳入讨论。

我们接下来仅讨论:有目的性的只是为了点击广告,而恶意采用的手动或软件的点击行为。

这些行为都是这么产生的呢?

竞价托管运营老阳认为,恶意点击主要存在以下两类可能: 1、广告主竞争对手的恶意消费

对于竞争对手的恶意消费,比较严重的一般出现在比如医疗类竞争激烈且SEM团队成熟度的情况下,其方式简直五花八门!防不胜防!基于搜索引擎本身近年来对医疗的规范运作,情况已经有所好转。

2、广告主潜在用户的报复消费

对于广告主的潜在用户的报复性消费,一般都是零星存在,只能产生有限的损失,不足为患。

当然,有的朋友还会说,媒体资源方自己也恶意点击,在老阳看来这个是个笑话,不排除有个别服务商有过这样的行为,但一定干不长久!而正规厂商是不会搬石头砸自己的脚的,也没这个必要。

竞价托管运营老阳认为恶点行为一般可能存在以下几种方式:1、软件挂VPN进行模拟点击

此类点击存在一定的技术壁垒,不是专业的人员玩不动,但是杀伤力巨大!搜索引擎厂商对此类行为的防范及其严密,但道高一尺,魔高一丈,市场随时在更新新的方式,一定会给搜索投放的广告主带来阵痛。

2、群发信息或挂机任务指定信息点击

此类点击行为范围有限,但是完全是有效的点击行为,搜索引擎厂商也管不着,一旦广告主被采用这样的方式盯上,极为头疼!

3、个体行为恶意点击

此类点击行为方式意义不大,当前搜索引擎厂商技术已经趋于完善,由此带来的伤害较小。

除此之外,你们是否有其他的恶意点击行为类别呢?欢迎留言交流!

下一期我们更新《搜索竞价推广账户的恶意点击防范、排查及处理办法大全(中)》:介绍恶意点击的表现方式及判定标准,下期再会!

新手学淘宝运营-搜索深度解析

2019的直通车,想通过技术操作将投入产出比做到盈亏平衡点以上,已经越来越难了。那么直通车的未来何去何从,什么样的情况下直通车能够接受亏损?

销量——但可能不是你所理解的销量

说到销量,大家都会有感触,搜索的综合排序中相对比较靠前的,拿到大量搜索流量的宝贝,往往都是销量比较高的宝贝。所以很多做电商的朋友都会认为,只要销量高,搜索流量就一定会很大。

这个理解并不完全正确,这其中有一些误区,而因为这个误区,很多朋友开始了盲目冲销量的征途。

这些盲目冲销量的行为,大多认为自己只要把销量冲到足够高,就可以带来足够的流量权重。慢慢的,很多人开始用上了一些超高佣金淘宝客、亏本冲量卖吆喝的方法,甚至还有些人开始铤而走险,开始作弊刷销量。

但是这样做真的有用吗?任何销量都会计算搜索权重吗?什么样的销量会计入搜索权重,什么样的销量不计入搜索权重?你的判断标准是什么?

今天给大家分享一下我的判断标准。一笔成交是否计入搜索权重,看的是这笔成交是否有在搜索场景下的搜索行为。

我举个例子,例如有一个买家,他个子不高,于是想买一双内增高的皮鞋。接着他打开手机淘宝,在搜索框中输入了“男士内增高皮鞋”这个关键词,得到了这个关键词的搜索结果。搜索结果中有很多款商品满足“男士内增高皮鞋”这个搜索条件。这名买家挑选了其中一个进行了购买。

上面这个例子中,买家的这笔成交是通过搜索功能查找关键词,从而找到了自己想买的“男士内增改皮鞋”这款商品,并产生了交易。

那么这笔交易是满足了用户在搜索场景下的行为所表达出来的需求。那么这比成交,也会计入搜索的排序权重计算。

我们总结出一个信息,一笔成交是否计入搜索,判定条件是这个用户是否是通过搜索渠道成交的。那么直通车的关键词投放,自然搜索关键词查找,都会计入搜索权重。

我们在看一个例子,还是这名买家,依然是搜索“男士内增高皮鞋”这个关键词。但是这名买家刚刚找到自己心仪的一款鞋子。

这个时候虽然这个买家不是通过搜索渠道进行成交的,但是这个买家是先通过搜索找到了这款商品,然后通过购物车成交了这款商品,他的一跳来源是通过关键词搜索行为成交的,那么这比成交依然会计入搜索的排序权重。

还有一个例子:

这名买家搜索了“男士内增高皮鞋”之后,把商品加入了购物车中。第二天打开手机淘宝,结果另外一家也销售“男士内增高皮鞋”的店铺,用钻展定向把广告投放给了这名买家。结果这名买家就在另外一家店铺成交了“男士内增高皮鞋”这个产品,那么另外的这家店铺,成交的这名买家,也是搜索了“男士内增高皮鞋”这个关键词,且是作为一跳来源,这笔成交也会计算搜索的排序权重。

通过上面的这两个例子,我们又总结出一个信息。如果一笔成交的一跳来源,是通过搜索关键词找到商品的,那么这比成交依然会计入搜索排序权重。

关键词——搜索权重的载体

一个宝贝的一笔销量,并不是记录在这个宝贝上的,而是记录在这个宝贝的关键词上的。也就是说成交的关键词不同,权重的计入也是不一样的。

例如有一款“笔记本电脑贴膜”,这款贴膜的宝贝标题是“13.3笔记本电脑贴膜15.6”,那么用户搜索“笔记本电脑贴膜13.3”可以找到这款宝贝,而搜索“笔记本电脑贴膜15.6”,也可以找到这款宝贝。

但是这款宝贝的竞争力是13.3寸的贴膜,15.6寸的贴膜价格相比竞争对手相对较弱。那么就会造成一种情况,搜索“笔记本电脑贴膜13.3”的用户大多能成交,而搜索“笔记本电脑贴膜15.6”的用户可能最后会选择别家店铺的产品。

这款宝贝近期成交了500笔交易,460笔是来自于“笔记本电脑贴膜13.3”这个关键词搜索后的成交,而“笔记本电脑贴膜15.6”的成交非常少。

对搜索而言,我们的商品是可以满足关键词“笔记本电脑贴膜13.3”搜索用户的需求。并不能满足关键词“笔记本电脑贴膜15.6”搜索用户的需求。那么当用户搜索“笔记本电脑贴膜13.3”这个关键词时,这款产品就会因为更能满足这个关键词搜索用户的需求,而被安排优先展示给用户。

但“笔记本电脑贴膜15.6”这个关键词并不会被优先推荐给买家。因为他并不能满足用户的搜索需求。用户的搜索行为不同,搜索关键词不同,则需求不同。不同的需求,也要通过不同的产品来进行满足。

通过上面的这个例子,我们得出一个结论。用户通过搜索行为成交带来成交销量,权重并不是隶属于某个宝贝的,而是属于这个宝贝标题中所包含的关键词。

用户通过搜索不同的关键词,带来的成交权重会累积到不同的关键词。而用户搜索不同的关键词时,宝贝排序也是由不同的关键词权重来进行排序的。

不知道说到这里,你是否对搜索的排序计算因素,也就是我们通常所说的权重,是否有了更加明确的认知?

通过这些知识点,我们应该理性的选择冲销量。有些销量(例如淘宝客)并不计入搜索的权重,但他可以改变商品的成交笔数、收货人数。对点击率、转化率这些效率指标有所影响,也会影响到搜索排序(具体的下一集会给大家详解),但是他并不会计入搜索的成交排序得分中来。

我们应该更加重视搜索成交的关键词,直通车成交的关键词。并且更加集中的去增加流量,增加转化率更高的成交关键词流量。

搜索展现排序逻辑

讲完了搜索成交关键词,接下来继续分享一下搜索展现排序的逻辑。

我们需要的是什么,我们需要的是流量。那么如何才能获获得流量呢?我们得在买家的关键词搜索排序中,获得更高的排名,从而获得更多的流量。而关键词排名的过程中,要经历了一个与所有竞争对手PK的过程。这个过程是这样的。

1.用户搜索“抱枕 慢回弹”这个关键词,首先搜索会在全网的宝贝中进行检索,找出所有标题中包含“抱枕”、“慢回弹”这两个词根的商品。这里我们将它称之为“匹配商品池”。

2.“匹配商品池”中会有很多宝贝是没有价值的宝贝,例如类目不符合优先展示类目的商品,或者是一些虚标价格没有用户成交的商品,又或者是上架很久但是没有用户成交的滞销商品。搜索会将这些商品剔除掉,留下相对活跃的商品。·这里我们将它称之为“活跃商品池”。

3.接下来在“活跃商品池”中,搜索会商品进行用户搜索词根的成交量比对。例如用户搜索的“抱枕 慢回弹”这个关键词,其中包含了“抱枕”、“慢回弹”这两个词根,那么搜索就会对比每个商品近一段时间“抱枕”这个词根的成交笔数,“慢回弹”这个词根的成交笔数。在综合词根对用户搜索需求的重要性进行拟合,得到商品词根成交量因素的排序。这里我们将它称之为“词根成交量排序”。

4.因为每个宝贝的点击率不同,转化率、客单价也不同。所以同样的流量带来的成交额也是有所不同的。这里给大家一个数据指标概念——展现价值。展现价值值得是,商品每获得一个展现量,能够带来的销售额是多少。

例如商品的单价是50元,转化率是7%,点击率是3%。那么,如果搜索分配给这个宝贝10000个展现量,它可以将展现量转变为300个访客数,300个访客数依照7%的转化率能带来21笔成交量,按照50元的单价,可以带来1050元销售额。

那么就是10000个展现量带来了1050元销售额,每个展现量可以带来0.105元的销售额。那么每个展现的价值就是0.105元,展现价值=点击率*转化率*客单价=3%*7%*50元=0.105元。展现价值越高的商品,在获得同样的展现量时,可以贡献更多的销售额。

在“词根成交量排序”的基础上,再综合这个宝贝的展现价值得到“商品原始排序”。假设在两款商品的词根成交量一模一样时,但由于A商品的展现价值比B商品要高,所以A商品的“商品原始排序”会更加靠前。

5.每个买家都会有自己的购物偏好,因为每个用户的认证信息不同、历史购物信息不同、与每家店铺的人店关系(老客户、老访客、新客户)不同等等,所以每个买家都会形成不同的用户标签。

因为每个宝贝自身的商品属性不同,以及成交用户身上所带的标签不同,所以每个宝贝也会形成不同的商品标签。在不同用户标签的买家进行搜索时,每个宝贝会根据自身的商品标签与这名买家身上的用户标签形成的不同的匹配程度,对该宝贝的“商品原始排序”进行加分或者减法,从而形成这个用户搜索结果的“个性化商品排序”。

每个买家的用户标签有所不同,每个宝贝的商品标签也有所不同,所形成的匹配度也大不一样。所以就出现了不同的“个性化商品排序”也就是我们常说的千人千面。

通过以上五个点的解读,希望你能够对搜索展现排序的逻辑有一个基本的认知。因为只有在能了解排序规则,相关因素的前提下,才能正确、高效的对他们进行优化

ps:我觉得开淘宝店的人,一定要有一个互相交流学习的圈子,不管是获取最新的行业动态,还是最新的操作方法。

如果只是一个人闷头做的话,是很难把淘宝店做好的。为此我建了一个群942577796。这里有刚接触电商的”萌新“,也有从事多年淘宝的老司机。

想交流学习的小伙伴,都可以加入我们,不需要你付出什么,只要你是真心想学习的就可以了