
搜索引擎的工作原理大体上可以分为三个阶段:
(1)爬行和抓取:
就是搜索引擎蜘蛛通过跟踪链接地址访问网站页面,把获取到的网站页面html代码放入到自己的数据库当中。
爬行和抓取是搜索引擎工作的第一步,主要是完成数据的收集任务;
解释几个关键词:
1.蜘蛛:
(1)定义:我把他它叫做抓取网页数据时的执行者,其实它就是一个计算机程序,因为这个工作过程与现实中的蜘蛛很相像,专业内就称它为搜索引擎蜘蛛!
(2)工作过程:蜘蛛程序向网站页面发出访问请求,服务器就会返回HTML代码,蜘蛛程序把收到的代码存入原始页面的数据库当中。蜘蛛访问任何一个网站时,都会最先访问网站根目录下的robots.txt文件!如果robots.txt文件禁止搜索引擎抓取某些文件或者目录,蜘蛛将会遵守这些禁止协议,不抓取那些被禁止的网址。
(3)常见的搜索引擎蜘蛛名称:
百度蜘蛛、雅虎中国蜘蛛、Google蜘蛛、微软Bing蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛等等!
2.跟踪链接
大家都知道整个互联网是由相连接的网站页面组合成的!页面和页面之间是靠链接来联系的,搜索引擎能为了更快速的收集网站数据,就是通过搜索引擎蜘蛛去跟踪网站页面上的链接,从一个页面抓取到下一个页面!这个过程和蜘蛛在蜘蛛网上爬行一样!就这样蜘蛛可以快速的可以爬完整个互联网上的网站页面!
根据网站链接结构的不同我们可以把蜘蛛的爬行路线分为两种:深度爬行和广度爬行
A:深度爬行:蜘蛛沿着发现的页面链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另为一个链接再一直向前爬行!
B:广度爬行:蜘蛛在一个页面上发现多个链接时,不顺着一个链接一直往前爬行,而是把页面上所有的第一层链接都爬行一遍,然后再继续沿着第二层页面上发现的链接爬向第三层页面!一直这样进行下去……
所以,我们在做网站的时候,对网站的结构一定要有这两种布局,优化网站页面的时候也一定要做到两种链接布局!这样的结构是搜索引擎蜘蛛组喜欢的!
3.定向优化技术勾引蜘蛛
A:过读网站和页面的权重进行优化提高蜘蛛的来访次数。
B:做好页面的跟新频率和内容的质量
C:增加导入链接
D:距离首页的点击距离;距离首页点击距离越近,页面权重越高,蜘蛛爬行的机会越大

4.地址库
搜索引擎会建立一个存放页面的地址库,目的就是为了避免搜索引擎蜘蛛重复爬行和抓取网址,这个地址库里面有已经被抓取的页面,也有被发现后还没有被抓取的页面!
这个地址库中的URL一定是蜘蛛抓取来的吗?答案是No
有人工录入的种子网站地址,也有站长通过搜索引擎网页提交表格提交进去的网址!可以百度一下搜索引擎网址提交入口提交网站。
另为需要注意的是:网址提交了,也不一定就能被收录,这看你提交页面的权重如何了!不过搜索引擎蜘蛛还是跟喜欢自己沿着链接去抓去页面!自己得来的更好吃!
5.文件存储
搜索引擎蜘蛛抓取来的页面就存放在这个原始页面数据库中!其中每个URL都有一个独特的文件编号!
6.对复制内容的检测
有很多站长曾经碰到过这样的问题:在网站页面中发现了蜘蛛来爬行过,但是页面没有被收录过,不知道什么回事!其实很简单,很有可能是蜘蛛在爬行你网页的时候发现了很多权重比较低的内容,比如:转载或者伪原创的内容是,蜘蛛就会离开!你的网页也就没有被收录!蜘蛛在爬行抓取页面内容的时候也会对其进行一定程度的复制内容检测!
(2)预处理
这个过程是指:索引程序对数据库里蜘蛛抓取来的网站页面进行处理,主要做文字提取,中文分词,索引等工作;
这个过程是起到一个桥梁的作用,由于搜索引擎数据库中的数据实在是太多了,当用户在搜索框中输入关键词后不可能一下就返回排名结果吗,但是往往我们感觉很快,其实起到关键作用的就是预处理这个过程!和爬行抓取过程一样他也是在后台提前完成的!
有些人认为预处理就是索引,其实不是这样的,索引只是预处理的一个主要步骤,那么什么是索引呢?索引是对数据库列表中的一列或者多列的值进行排序的一种结构!
在索引之前要做五个工作:
1.提取文字:
我们知道蜘蛛抓取的是含有全部HTML代码的页面,这里面其实包含很多信息:有文字,有CSS属性,有大量的HTML格式标签,javascript程序!但是后面的两个是无法参与到排名内容中来的,也就是说除了文字之外其它的都给去掉了,这个过程就是去除过程,也叫提取文字的过程,即:提取出可以用于排名处理的网站页面文字内容!
注意:搜索引擎除了提取出可见的文字外,还可以提出以下不可见的文字内容;比如:METa标签中的文字内容,图片替代文字,FLASH文件的替代文字,链接锚文字等!
以上分享文字是个人原创观点,如果你觉得小编的文章还不错,可以点击关注,关注我的头条号,有问题可评论讨论学习。
时刻钟
发稿网(QQ:599515669)是全国领先的在线新闻稿发布平台,团队由资深互联网专家组成,服务内容类涵盖软文发布、软文发布、微信营销、微博营销、视频置顶、百度问答等多种互联网广告行业。发稿网平台有上千媒介编辑、专业写手、段子手、营销专家,为企业、公共机构和个人提供定制化的解决方案,将创意、智慧、技能转化为商业价值和社会价值。发稿网平台凭借多年的网络资源和客户资源积累,发展遥遥领先同行业其他软文平台。