
搜索引擎的五个组成部分:1.网页抓取系统:网页抓取系统的工作原理是首先搜索引擎派出爬行蜘蛛搜索整个互联网的网页,并沿着网页上的每一个链接继续向下抓取。
2.数据分析和处理系统:当蜘蛛抓取的网页下载回来之后,数据分析系统便开始工作了,根据搜索引擎收录的标准对网页进行分析,进而判定哪些网页是可以收录的,哪些网页是需要删除的;当数据分析完成之后,接下来便是数据处理系统开始工作,数据处理系统主要原理就是根据搜索引擎的算法对网站的外链、内容、权重、关键词进行分析,然后对网页进行排序。
3.存储系统:数据存储系统里储存的网页是经过处理系统处理过的干净数据,并且根据网页的内容进行了分类。
4.缓存系统:一般缓存系统分为临时缓存区和时段缓存区,临时缓存系统主要是针对临时网页的排名,而时段缓存区一般是24小时变动一次。
5.展示系统:展示系统中的数据都是被处理好的,包括网页的排名,网页的权重计算等等,只要用户进行搜索,这些数据就可以快速地展现在用户面前,而不需要进行新一轮的抓取、处理、排序等复杂工作。