ICP备案+网站制作+网站托管一年只需3000元

网站建设、行业建站案例

了解关于搜索引擎抓取原理 提升网站排名

第一步:爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。

搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。比如:蜘蛛如果跟踪链接想去爬行一个站点的时候,先要通过robots文件说明,如果robots文件不允许蜘蛛爬行的话,蜘蛛是不能跟踪链接的。

当然,蜘蛛也需要理解HTTP返回码、nofollow标签、mate标签等等,所以蜘蛛的爬行是在一定规律和要求下进行的。除了搜索引擎蜘蛛要遵循的一些规则外,还有一些搜索引擎蜘蛛无法做到的事情。比如:要求注册的站点,FLASH里的链接,图片里的链接等等。所以,我们了解搜索引擎蜘蛛爬行的时候,不能一味的认为搜索引擎蜘蛛无所不能。

 第二步:抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户游览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面是,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不在爬行。这也就是为什么有一些采集站的数据量很大,但是收录量很低的原因。不过,大部分的去重工作,还是在预处理阶段进行。

第三步:预处理

搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

1、提取文字

现在搜索引擎的排名,还是主要以文字内容为基础。蜘蛛抓取到数据库里的原始页面文件,需要进行文字提取,去除页面中的标签、JS程序、图片等无法用于排名的内容。当然,搜索引擎也会提取游览器中发现显示的标签文字、图片注释文字、FLASH注释文字和锚文本文字等。

 2、中文分词

中文分词主要是针对中文搜索引擎的特有步骤,英文搜索引擎不存在这个步骤。由于中文字和词是连载一起的,搜索引擎要分辨哪些字组成的一个词,所以进行一种分词步骤。中文分词一般都是按照两种方法,一种是词典匹配;一种是基于统计分析。词典匹配比较容易理解,是根据以往词典中出现的词语匹配。而基于统计分析,主要是分析大量的文字样本,计算出字与字相邻出现的频率,来判断是不是一个词。在这里,我们就比较容易理解关键词里所说到的完全匹配,基本上是基于词典匹配,反之则是根据统计分析出来的词。

 3、去停词

去停词主要是去除对内容无关紧要的一些助词(如中文的:的,地,哈。英文的the.a,an等),使索引数据主题更为突出,减少无谓的计算量。

 4、消除噪音

消除噪音主要是去除一些对页面主题内容没什么贡献,并且大量重复出现的文字。比如,导航、页脚、和广告等

5、去重

去重处理,其实就是搜索引擎判断是否原创的一种计算方式。一般情况,搜索引擎运用的方法是对页面特征关键词计算指纹,也就是说从页面主题内容中选取最有代表性的一部分关键词,然后计算这些关键词的数字指纹。

实验证明,一般复制的内容即使增加了的、地、哈等文字或者把段落重新组合,都能被搜索引擎轻易判断出来。这些只能从推理上来理解,现阶段的搜索引擎还不能完全判断原创内容,因为还会涉及到页面被抓去的时间的先后,网站的信任度等很多方面的信息。

相关推荐

评论 抢沙发