互联网搜索引擎组成部分

📁 软文 #搜索引擎

搜索引擎的系统主要包括下载、网页分析、建立索引、查询服务四大系统。下载系统主要负责收集网页,将网站的所有网页采集回来,放到一个所谓的“仓库”中,通过网页分析系统将网页分类,将重复网页、垃圾网页过滤掉,然后将剩下的有价值的网页编成目录建立索引,等待用户查询,只要有用户查询某一个关键词,搜索引擎就可以用最短的时间将其呈现给用户。搜索引擎四大系统都是独立运行的,在查询某个关键词的时候,搜索引擎并不是等用户发出查询的命令后再去互联网上收集相关网页的,因为这样可能耗费很长时间,有可能是几个小时,甚至几天。搜索引擎调用的都是事先已经整理完毕的数据,用户需要什么,搜索引擎就提供什么。四大系统之间相互配合,但独立工作。1.下载系统搜索引擎的下载系统采用多线程方式工作,每一个线程就是我们经常提到的蜘蛛。如果下载系统中只有一只蜘蛛工作,想要抓取互联网上的全部网页是不可能的。依目前情况来看,多线程都不能完全抓取互联网上的所有网页。搜索引擎的服务器依目前情况来看,多线程都不能完全抓取互联网上的所有网页。搜索引擎的服务器遍布世界各地,每一台服务器都会派出多只蜘蛛同时去抓取网页,那么要确保不重复抓取,同时提高速度和效率,搜索引擎是怎么做到的呢?搜索引擎在下载网页的时候,会建立两张不同的表,一张表记录已经访问过的网站,一张表记录没有访问过的网站。因为很多网站都会做外部链接,这样就有可能很多网页都指向了一个网站,而搜索引擎蜘蛛是顺着链接来抓取网页的,蜘蛛会从很多外部链接页面重复抓取一个网站,这样会造成大量的重复工作,降低工作效率。而建立这张表后,就完全地解决这个问题,提高了工作效率。当蜘蛛抓取某个外部链接页面的URL的时候,它会把这个URL下载回来分析,当蜘蛛全部分析完这个URL后,会将这个URL存入相应的表中,这时当另外的蜘蛛从其他的网站或者其他页面又发现了这个URL时,它会对比看看已访问列表有没有,如果有,这个URL蜘蛛会自动丢弃,不需要再访问,尽量做到一个页面只访问一次,从而提高了搜索引擎的工作效率。搜索引擎收集信息类型为html、pdf、doc等格式的页面,这些格式都可以通过一些工具非常简单、快速地转化为文本。其实我们可以在百度中输入文档进行搜索,也可以搜索指定类型的文档,例如,pdf、doc。我们可以利用pdf、doc来做一些优化上的处理,效果也是比较好的。搜索引擎不是说互联网上所有的网页都会抓取过来,因为互联网上的网页实在太多了,不可能全部抓取过来。这方面,Google可能会比百度好一点儿,百度会处理一些数据,数据量越大效率自然会降低,所以它会选择重要的网页来优先抓取。那么,什么样的网页才算是重要的网页呢?(1)网页的外链多,入度大,被引用得多大多数人知道这点后,第一反应就是群发这个页面,让它变成重要的网页。这种方法很早以前就有人在用了,不知道读者有没有发现,当访问一些网页的时候,文章内容最后会出现“本文转载自某某网站”的字样,这都是为了提高网页的入度。不过这种方法目前来说还是比较有效的,但是要掌握一个度,增长得不能过快,每天发布的数量最好不要太多。(2)网页的镜像度高有很多做小说站、电影站的朋友问,网站已经收录几万页了,每天的流量为什么还这么少,也没有排名?原因很简单,网站虽然被搜索引擎收录,但是这些页面大多数都与其他网站重复,搜索引擎给网站的权重非常低,页面的重要性并不高,所以采集回来的网页一定要进行伪原创。(3)网页的上层页面入度大这点在前面的章节中已经详细讲解过,这里不再重复。(4)网页的目录深度小这个话题在后面章节中会进行详细的讲解,在这里先留个伏笔。当一个网页重要性高的时候,搜索引擎会优先抓取这样的页面,而且抓取完毕后,很快给它一个好的排名,在搜索结果中很快出现。这对一个网站来说是非常重要的,因为做网站都是为了赚钱,排名出现得越早,赚到的钱就越多,不能小看。最后总结一下,一个稳定和高效的下载系统是搜索引擎提供服务的根基,搜索引擎能否做到很高的时效性,取决于下载系统策略和下载系统的性能。这对于商业搜索引擎来说是非常重要的,就好比你搜索当天的新闻,如果你在Google上能搜索到而在百度上搜索不到,相信很多人会使用Google而不会使用百度,所以时效性对一个搜索引擎来说是非常重要的。如果要在这方面做得特别强,那么一定需要一个高效的下载系统。2.分析系统搜索引擎为什么要对网页进行分析?因为搜索引擎并不是人,没长眼睛,不能看到整个页面上写的是什么内容,而只能通过分析知道这个网页上写的大概是什么样的内容,是否有反动或者黄色及不应该出现的内容。前一段时间.info域名的网站非常猖狂,大多数.info的网站都是垃圾站,里面的内容都是采集的内容,而且有的网站内容与网站并不相关,做这些网站的人来挑战搜索引擎的分析系统,但在搜索引擎中只存在了几个月便消失得无影无踪。搜索引擎会对这些页面进行分析,分析完毕后会将垃圾页面过滤掉,即使没有过滤掉,也不会给这些网页好的排名,要不用户搜索出来的信息都是垃圾信息,就没有人再使用搜索引擎了。网页消重对搜索引擎来说是非常重要的。互联网镜像页面和采集页面非常多,有好多朋友的电影站,都是用马克思这样的程序来做的,网站的资源都一样,所以网站里面的内容也都是一样的。这些人经常抱怨,电影的内容页面没有收录多少,只收录了此页面。原因其实很简单,内容页面的一些电影介绍都是和其他网站一模一样的,那为什么收录tag页面呢?因为这些tag页面是系统随机产生的,这样的页面重复性非常低,所以被收录了。想要让这些电影的内容页面被收录,伪原创是非常必要的。一个网页什么地方是最重要的,那么就应该将网站的关键词放到这些重要的地方。就像我们平时买东西,首先要买一些日常必需品,之后再考虑那些可买可不买的东西。如果将钱都用在了不该买的东西上,等真正需要钱的时候,就会非常着急。搜索引擎也是一样,它认为重要的地方,一定要充分利用,不能放过。搜索引擎虽然看不懂网页,但是它有办法来解决这个问题,那就是对网页进行切词。从字面上应该能理解切词是什么意思,即搜索引擎将一个很长的句子分解成若干个词语。例如用户在百度上搜索“搜索引擎4大系统”,搜索引擎会将这句话切词成为“搜索引擎,4,大,系统”。搜索引擎切词完毕后会去掉一些高频无关词,像一些语气词就是高频无关词,因为这样的词在网页中是没有什么意义的,剩下的词搜索引擎会把它建成一个索引。通过切词,搜索引擎会把你的网页转化成一个关键词集合,这样做有一个好处,变成了关键词集合以后才能对网页建立索引,才能在用户的搜索结果中展现。3.建立索引通过上面的分析之后,它就获得了一个关键词集合的转变,网页已经不再是网页了,它变成了一堆关键词,将这些关键词按照先后顺序排列,排序可根据3个方面的算法。(1)基于内容的排序算法内容排序的计算方法是根据词频和关键词出现的位置来判定的,在搜索引擎允许的范围内,词频越高对排名越有利。关键词出现的位置也很重要,出现在Title标签和Keywords标签的作用肯定是不一样的,出现在文章开头和文章结尾的作用也是不一样的。这些地方具体怎么来优化,怎么做才是最完美方案,会在后面的章节中详细讲解。(2)基于超链接分析的排序算法这种方法相对来说是弥补了上面方法的不足,对那些使用关键词堆积的人来说是一个打击,告诉他们尽管你的网站在内容中关键词词频非常高,但是外链非常少,排名相对来说也不会很理想。后来大多数人知道了外链的重要性,开始大量制作垃圾链接,企图操控网站排名,不过已经被制止。(3)竞价排名竞价排名是搜索引擎公司为了提高利润而推出的一项服务,只要肯花钱,就能立刻排名到首页上,没有什么技术含量。目前为止,有很多公司选择了这种方式,因为容易操作,很快便能看见结果。上述排序算法只是从大的范畴简单介绍一下,其中还有许多细节,在后面的章节中会进行详细讲解。排序完毕后,搜索引擎将这些关键词建立索引,建立索引以后就会提高搜索引擎的检索效率。4.查询服务当用户在搜索引擎上输入相关关键词查询自己想要的资料的时候,搜索引擎会将事先建立好的与用户查询匹配的索引(搜索结果)呈现给用户,保证提供的结果是用户想要的。