了解关于搜索引擎抓取原理提升网站排名-发稿网

第一步：爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链接，像蜘蛛在蜘蛛网上爬行一样，所以被称为“蜘蛛”也被称为“机器人”。

搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容。比如：蜘蛛如果跟踪链接想去爬行一个站点的时候，先要通过robots文件说明，如果robots文件不允许蜘蛛爬行的话，蜘蛛是不能跟踪链接的。

当然，蜘蛛也需要理解HTTP返回码、nofollow标签、mate标签等等，所以蜘蛛的爬行是在一定规律和要求下进行的。除了搜索引擎蜘蛛要遵循的一些规则外，还有一些搜索引擎蜘蛛无法做到的事情。比如：要求注册的站点，FLASH里的链接，图片里的链接等等。所以，我们了解搜索引擎蜘蛛爬行的时候，不能一味的认为搜索引擎蜘蛛无所不能。

　第二步：抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。其中的页面数据与用户游览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面是，也做一定的重复内容检测，一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不在爬行。这也就是为什么有一些采集站的数据量很大，但是收录量很低的原因。不过，大部分的去重工作，还是在预处理阶段进行。

第三步：预处理

搜索引擎将蜘蛛抓取回来的页面，进行各种步骤的预处理。

1、提取文字

现在搜索引擎的排名,还是主要以文字内容为基础。蜘蛛抓取到数据库里的原始页面文件，需要进行文字提取，去除页面中的标签、JS程序、图片等无法用于排名的内容。当然，搜索引擎也会提取游览器中发现显示的标签文字、图片注释文字、FLASH注释文字和锚文本文字等。

　2、中文分词

中文分词主要是针对中文搜索引擎的特有步骤，英文搜索引擎不存在这个步骤。由于中文字和词是连载一起的，搜索引擎要分辨哪些字组成的一个词，所以进行一种分词步骤。中文分词一般都是按照两种方法，一种是词典匹配;一种是基于统计分析。词典匹配比较容易理解，是根据以往词典中出现的词语匹配。而基于统计分析，主要是分析大量的文字样本，计算出字与字相邻出现的频率，来判断是不是一个词。在这里，我们就比较容易理解关键词里所说到的完全匹配，基本上是基于词典匹配，反之则是根据统计分析出来的词。

　3、去停词

去停词主要是去除对内容无关紧要的一些助词(如中文的：的，地，哈。英文的the.a,an等)，使索引数据主题更为突出，减少无谓的计算量。

　4、消除噪音

消除噪音主要是去除一些对页面主题内容没什么贡献，并且大量重复出现的文字。比如，导航、页脚、和广告等

5、去重

去重处理，其实就是搜索引擎判断是否原创的一种计算方式。一般情况，搜索引擎运用的方法是对页面特征关键词计算指纹，也就是说从页面主题内容中选取最有代表性的一部分关键词，然后计算这些关键词的数字指纹。

实验证明，一般复制的内容即使增加了的、地、哈等文字或者把段落重新组合，都能被搜索引擎轻易判断出来。这些只能从推理上来理解，现阶段的搜索引擎还不能完全判断原创内容，因为还会涉及到页面被抓去的时间的先后，网站的信任度等很多方面的信息。

ICP备案+网站制作+网站托管一年只需3000元

了解关于搜索引擎抓取原理提升网站排名

相关推荐

评论抢沙发

ICP备案+网站制作+网站托管一年只需3000元

了解关于搜索引擎抓取原理 提升网站排名

相关推荐

评论 抢沙发

了解关于搜索引擎抓取原理提升网站排名

评论抢沙发