胡水生搜索引擎工作原理若干问题

搜索引擎的工作的过程非常复杂，而简单的讲搜索引擎的工作过程大体可以分成三个阶段。

　　爬行和抓取：搜索引擎蜘蛛通过跟踪链接访问页面，获取页面HTML代码存入数据库。

　　预处理：搜索赢球对抓取来的页面数据文字进行文字提取、中文分词、索引等处理，以备排名程序调用。

　　排名：用户输入关键字后，排名调用索引库数据，计算相关性，然后按一定格式生成搜索结果页

哪些页面被认为比较重要呢?有几方面影响因素：

　　· 网站和页面权重。质量高、资格老的网站被认为权重比较高，这种网站上的页面被爬行的深度也会比较高，所以会有更多内页被收录。

　　· 页面更新度。蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样，说明页面没有更新，蜘蛛也就没有必要经常抓取。如果页面内容经常更新，蜘蛛就会更加频繁地访问这种页面，页面上出现的新链接，也自然会被蜘蛛更快跟踪，抓取新页面。

　　· 导入链接。无论是外部链接还是同一个网站的内部链接，要被蜘蛛抓取就必须有导入链接进入页面，否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。一般来说网站上权重最高的是首页，大部分外部链接是指向首页，蜘蛛访问最频繁的也是首页。离首页点击距离越近，页面权重越高，被蜘蛛爬行的机会也越大。

预处理

　　在一些SEO材料中，“预处理”也被简称为“索引”，因为索引是预处理最主要的步骤。

　　搜索引擎蜘蛛抓取的原始页面，并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上，用户输入搜索词后，靠排名程序实时对这么多页面分析相关性，计算量太大，不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理，为最后的查询排名做好准备。

　　和爬行抓取一样，预处理也是在后台提前完成的，用户搜索时感觉不到这个过程。

1.提取文字

　　现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面中的HTML代码，除了用户在浏览器上可以看到的可见文字外，还包含了大量的HTML格式标签、 JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序，提取出可以用于排名处理的网页面文字内容。

2.中文分词

　　分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔，搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符，一个句子中的所有字和词都是连在一起的。

3.去停止词

　　无论是英文还是中文，页面内容中都会有一些出现频率很高，却对内容没有任何影响的词，如“的”、“地”、“得”之类的助词，“啊”、“哈”、“呀”之类的感叹词，“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词，因为它们对页面的主要意思没什么影响。英文中的常见停止词有the，a，an，to，of等。

　　搜索引擎在索引页面之前会去掉这些停止词，使索引数据主题更为突出，减少无谓的计算量。

4.消除噪声

　　搜索引擎需要识别并消除这些噪声，排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块，区分出页头、导航、正文、页脚、广告等区域，在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后，剩下的才是页面主体内容。

5.去重

　　搜索引擎还需要对页面进行去重处理。

　　同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上，搜索引擎并不喜欢这种重复性的内容。用户搜索时，如果在前两页看到的都是来自不同网站的同一篇文章，用户体验就太差了，虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇，所以在进行索引前还需要识别和删除重复内容，这个过程就称为“去重”。

6.正向索引

　　正向索引也可以简称为索引。

　　经过文字提取、分词、消噪、去重后，搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词，按照分词程序划分好的词，把页面转换为一个关键词组成的集合，同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面第一段文字等)。这样，每一个页面都可以记录为一串关键词集合，其中每个关键词的词频、格式、位置等权重信息也都记录在案。

7.倒排索引

　　正向索引还不能直接用于排名。假设用户搜索关键词2，如果只存在正向索引，排名程序需要扫描所有索引库中的文件，找出包含关键词2的文件，再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。

　　所以搜索引擎会将正向索引数据库重新构造为倒排索引，把文件对应到关键词的映射转换为关键词到文件的映射.

8.链接关系计算

　　链接关系计算也是预处理中很重要的一部分。现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓取页面内容后，必须事前计算出：页面上有哪些链接指向哪些其他页面，每个页面有哪些导入链接，链接使用了什么锚文字，这些复杂的链接指向关系形成了网站和页面的链接权重。

9.特殊文件处理

　　除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容，也不能执行脚本和程序。

　　虽然搜索引擎在识别图片及从Flash中提取文字内容方面有些进步，不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。对图片、视频内容的排名还往往是依据与之相关的文字内容。

10排名

　　经过搜索引擎蜘蛛抓取的界面，搜索引擎程序计算得到倒排索引后，收索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入关键字后，排名程序调用索引库数据，计算排名显示给客户，排名过程是与客户直接互动的。

造成Baiduspider抓取异常的原因

1，服务器连接异常

2，网络运营商异常

3，DNS异常

4，IP封禁.

5，死链

6，异常跳转

Baiduspider抓取频次原则及调整方法主要指标有四个：

　　1，网站更新频率：更新快多来，更新慢少来，直接影响Baiduspider的来访频率

　　2，网站更新质量：更新频率提高了，仅仅是吸引了Baiduspier的注意，Baiduspider对质量是有严格要求的，如果网站每天更新出的大量内容都被Baiduspider判定为低质页面，依然没有意义。

　　3，连通度：网站应该安全稳定、对Baiduspider保持畅通，经常给Baiduspider吃闭门羹可不是好事情

　　4，站点评价：百度搜索引擎对每个站点都会有一个评价，且这个评价会根据站点情况不断变化，是百度搜索引擎对站点的一个基础打分（绝非外界所说的百度权重），是百度内部一个非常机密的数据。站点评级从不独立使用，会配合其它因子和阈值一起共同影响对网站的抓取和排序。

发稿网（QQ：599515669）是全国领先的在线新闻稿发布平台，团队由资深互联网专家组成，服务内容类涵盖软文发布、软文发布、微信营销、微博营销、视频置顶、百度问答等多种互联网广告行业。发稿网平台有上千媒介编辑、专业写手、段子手、营销专家，为企业、公共机构和个人提供定制化的解决方案，将创意、智慧、技能转化为商业价值和社会价值。发稿网平台凭借多年的网络资源和客户资源积累，发展遥遥领先同行业其他软文平台。