
不知大家想没想过这样一个问题:在百度中搜索某个关键词时,所展示的排名结果一定是和搜索的内容有相关性的。比如,在百度中搜索“王者荣耀”,所展示的排名页面一定与王者荣耀这个游戏有关。可能你会说这是肯定的啊,百度一定会将用户搜索的内容进行展示,否则谁还用百度呢?那么紧接着又有第二个问题:百度是如何分辨页面内容并在用户搜索时精准展示呢?这就要从百度自身的一个抓取程序说起,今天猫哥就先来介绍这个抓取程序。
百度排名结果展示
页面想要在百度中出现排名首先要依靠一个抓取程序,将网页抓取到百度的数据库中,之后在数据库内进行一系列复杂的处理,最后再展示给用户。而这个抓取程序叫做蜘蛛程序。
蜘蛛程序又叫网络机器人,是搜索引擎用来收集互联网中网页的一种脚本程序,不同的搜索引擎有不同的蜘蛛程序,这里就以百度蜘蛛程序(以下简称蜘蛛)为例。对于我们每个人来说,变质的食物我们不喜欢吃,每天吃同一种食物会烦。蜘蛛也是如此,并不是所有的页面都会吃掉,蜘蛛的“胃口”也是很挑剔的,重复的内容不会吃,没营养的内容不会吃,另外消化不了的内容也不会吃,可以说蜘蛛的口味是刁钻至极!但是谁让百度影(hang)响(ye)力(long)大(duan)呢,所以众多的SEO站长们通过不懈钻研,终于研究出了蜘蛛的几大特性:

蜘蛛习性揭秘
只能收集页面中的纯文字内容
喜欢原创的高质量内容
在页面内通过链接爬行
上边的三点中需要特别注意的是:

1、页面中的图片,视频,声音等内容蜘蛛无法识(xiao)别(hua)的
2、蜘蛛不喜欢那些复制抄袭甚至是非法的内容,更不要说收集这些内容予以排名
3、蜘蛛是通过页面之间的链接在网站内由一个页面爬行到另一个页面,网站的链接相当于“蛛网”
以上介绍的是蜘蛛的特性,我们只需要记住蜘蛛收集网页的过程相当于是把页面吃掉就可以了。那么将页面吃掉后,蜘蛛是如何对吃下去的页面进行消化处理呢?
且听猫哥下回分解~!