Menu

SEO优化教程之通俗易懂讲解百度分词算法技术

  • 软文     2019-5-22
<返回列表

今天讲讲百度的分词算法技术。

1、百度分词是什么意思

互联网上的信息量是非常庞大的,每个页面讲的是什么内容,搜索引擎会根据标题和页面相关信息(包括文字、链接、图片等)。举个最简单的例子,比如搜索引擎抓取到一个页面标题的时候,它怎么知道这个标题里边讲的是什么意思呢。在以往的介绍里,可能会跟你讲百度会从这个标题里边提取出核心出来(标题最重要的内容是什么)。普通人在看到一篇文章的时候,能通过自己对于文字的理解,提取出核心,那么搜索引擎是个机器,那的判断又是怎么来的呢,如果搜索引擎的这个判断不合理,那么会导致大部分的排名结果出现偏差。

首先,百度是怎么提取出核心的呢!OK,在提取出核心之前,就有了分词,把一个标题的各种文字,通过百度自己的方式拆分开来,再判断哪些是重要的信息。这才有了提取标题核心这么一说。

2、百度分词常出现在哪里,你未曾留意

搜索引擎抓取到一个页面标题,那么会把这个标题进行拆分,中间就会使用到分词技术,然后判断这个标题的核心,再把经过判断之后的结果,分文别类,就想把东西布置在货架上一样,不同的货架区放着不同的东西。

图1-1

标题:2015百度SEO网站排名优化-【全网首发】地标网络

那么组成这个标题,是由多少个关键词词汇组成的呢,这里边一个长句子,就会去进行分词拆分。

而当用户在百度搜索框里边输入结果时,用户输入的是什么内容,搜索引擎也一样的得对它进行识别和核心提取(当然,这其中也会使用到分词技术)。

所以无论在搜索引擎页面抓取识别,或者用户输入内容进行搜索,分词算法都一直工作着。

用户搜索“百度seo排名”,那个这个关键词,又可以怎样进行拆分。

以上两者拆分之后,提取核心,然后用户一搜索“百度seo排名”,那么搜索引擎就会到存放该核心相关的“货架”区域去找页面内容,当中就包含“2015百度SEO网站排名优化-【全网首发】地标网络”这个标题的页面

3、百度分词的方法

既然要分词,那么以什么词作为标准。作为分词标准的词库是怎么来的?一方面是基于词典匹配,就像是现成的字典一样,里边包含着许多形成规范的词汇。另一方面是基于统计,比如每年互联网都会产生许多新词,那么根据用户的搜索统计,形成百度词库里边新的词汇,以此作为切分关键词(进行匹配)的一个标准。

图1-2

另外,对于分词的方向,大体有以下三种

以“2015百度SEO网站排名优化”为例子

1)正向最大匹配-从左往右切分

2015 百度SEO 网站排名优化

2)反向最大匹配-从右往左切分

2015 百度 SEO 网站 排名优化

3)双向最大匹配-左右同时进行分词

当然,根据字典或者统计,有不同的关键词切分方法。

所以,你可以去进行研究,比如地标网络这个网站,标题的设置

“百度seo排名”这个关键词可以获取排名,匹配程度合格

“百度seo优化”可以获取排名,匹配程度合格

“seo网站排名优化”可以获取排名,匹配程度合格

如下图,是该网站9月5日获取的流量展示和点击情况

去分析,会发现关键词拆分和匹配程度做得更好的关键词,排名会更靠前(排除不同关键词竞争难度这一因素)

百度把一个长句子拆分开来之后,接着会去进行噪音的消除,去除杂质,留下主干。

比如“2015百度SEO网站排名优化-【全网首发】地标网络”,举例讲解:

去掉符号:2015百度SEO网站排名优化 全网首发 地标网络

去掉该标题没匹配意义的词剩下:百度SEO网站排名优化 地标网络

当中,地标网络属于品牌词

那么核心主干就是“百度SEO网站排名优化”,通过图1-3也可以发现,更多的有排名的关键词,大多集中在主干能分词、匹配的基础上。


更多阅读

直击泛家居产行业20强的品牌定位策略

软文 2019-5-22
大材研究注意到,近几年来,有不少公司重塑定位,或者放大原来的优势定位。此事,如果做好了,少则省几千万,多则可省几个亿的广告费。 ...

卖家成长 选取关键词得注意 前期关键词调研更重要

软文 2019-5-22
如今在亚马逊上开个店看似很容易,但要保证出单,持续的出单却很难。原因有很多,老话说的没错,三分靠运气七分靠打拼,而做亚马逊前期...

国庆假期借势海报 杜蕾斯发挥正常 宝马海报无文案 ofo大手笔

软文 2019-5-22
文 | PR天下 今年国庆假期与去年最大不一样的地方在于,期间还要累加一天中秋节假期,共计八天,而这竟成为数家品牌借势创意的发力点。...
返回列表
扫描二维码分享到微信
确 认

Copyright © 2015-2021 发稿网

     
扫码二维码立即咨询
确 认