
软文发稿|公关软文|软文营销|媒体传播
今天讲讲百度的分词算法技术。
1、百度分词是什么意思
互联网上的信息量是非常庞大的,每个页面讲的是什么内容,搜索引擎会根据标题和页面相关信息(包括文字、链接、图片等)。举个最简单的例子,比如搜索引擎抓取到一个页面标题的时候,它怎么知道这个标题里边讲的是什么意思呢。在以往的介绍里,可能会跟你讲百度会从这个标题里边提取出核心出来(标题最重要的内容是什么)。普通人在看到一篇文章的时候,能通过自己对于文字的理解,提取出核心,那么搜索引擎是个机器,那的判断又是怎么来的呢,如果搜索引擎的这个判断不合理,那么会导致大部分的排名结果出现偏差。
首先,百度是怎么提取出核心的呢!OK,在提取出核心之前,就有了分词,把一个标题的各种文字,通过百度自己的方式拆分开来,再判断哪些是重要的信息。这才有了提取标题核心这么一说。
2、百度分词常出现在哪里,你未曾留意
搜索引擎抓取到一个页面标题,那么会把这个标题进行拆分,中间就会使用到分词技术,然后判断这个标题的核心,再把经过判断之后的结果,分文别类,就想把东西布置在货架上一样,不同的货架区放着不同的东西。
图1-1
标题:2015百度SEO网站排名优化-【全网首发】地标网络
那么组成这个标题,是由多少个关键词词汇组成的呢,这里边一个长句子,就会去进行分词拆分。
而当用户在百度搜索框里边输入结果时,用户输入的是什么内容,搜索引擎也一样的得对它进行识别和核心提取(当然,这其中也会使用到分词技术)。
所以无论在搜索引擎页面抓取识别,或者用户输入内容进行搜索,分词算法都一直工作着。
用户搜索“百度seo排名”,那个这个关键词,又可以怎样进行拆分。
以上两者拆分之后,提取核心,然后用户一搜索“百度seo排名”,那么搜索引擎就会到存放该核心相关的“货架”区域去找页面内容,当中就包含“2015百度SEO网站排名优化-【全网首发】地标网络”这个标题的页面
3、百度分词的方法
既然要分词,那么以什么词作为标准。作为分词标准的词库是怎么来的?一方面是基于词典匹配,就像是现成的字典一样,里边包含着许多形成规范的词汇。另一方面是基于统计,比如每年互联网都会产生许多新词,那么根据用户的搜索统计,形成百度词库里边新的词汇,以此作为切分关键词(进行匹配)的一个标准。
图1-2
另外,对于分词的方向,大体有以下三种
以“2015百度SEO网站排名优化”为例子
1)正向最大匹配-从左往右切分
2015 百度SEO 网站排名优化
2)反向最大匹配-从右往左切分
2015 百度 SEO 网站 排名优化
3)双向最大匹配-左右同时进行分词
当然,根据字典或者统计,有不同的关键词切分方法。
所以,你可以去进行研究,比如地标网络这个网站,标题的设置
“百度seo排名”这个关键词可以获取排名,匹配程度合格
“百度seo优化”可以获取排名,匹配程度合格
“seo网站排名优化”可以获取排名,匹配程度合格
如下图,是该网站9月5日获取的流量展示和点击情况
去分析,会发现关键词拆分和匹配程度做得更好的关键词,排名会更靠前(排除不同关键词竞争难度这一因素)
百度把一个长句子拆分开来之后,接着会去进行噪音的消除,去除杂质,留下主干。
比如“2015百度SEO网站排名优化-【全网首发】地标网络”,举例讲解:
去掉符号:2015百度SEO网站排名优化 全网首发 地标网络
去掉该标题没匹配意义的词剩下:百度SEO网站排名优化 地标网络
当中,地标网络属于品牌词
那么核心主干就是“百度SEO网站排名优化”,通过图1-3也可以发现,更多的有排名的关键词,大多集中在主干能分词、匹配的基础上。
软文发稿|公关软文|软文营销|媒体传播