什么是搜索引擎 网络搜索引擎是怎么工作的

📁 软文 #搜索引擎

搜索引擎是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

搜索引擎工作原理总分为三步

爬行和抓取搜索引擎蜘蛛通过跟踪链接访问页面,获得页面HTML代码存入数据库。

预处理:索引程序对抓来的页面数据进行文字提取,中文分词,索引等处理,以备排名程序调用。

排名:用户输入关键处后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

去停止词

一些出现频率很高,却对内容没有任何影响的词称为停止词。

消除噪声

消噪:根据HTML标签对页面分块,区分出页头,导航正文,页脚,广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。

去重:从页面主题内容中选取一部分最具有代表性的的关键词(常是高频词),计算这些关键词的数字指纹。这里的关键词选取是在分词,去停止词,消噪之后。

正向索引

按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的频率,次数,格式,位置。

倒排索引

搜索引擎把文件对应到关键词的映射转换为关键词到文件的映射。当用户搜索某个关键词时,排序程序在倒排索引中定位到关键词,可以马上找出所有包含这个关键词的文件

链接关系计算

搜索引擎在抓取页面内容后必须事前计算出:页面上有哪些链接指向那些其他页面,每个页面上有哪些导入链接,链接使用什么描文本,这些复杂的链接指向关系形成了网站和页面的权重。

特殊文件处理

处理HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,PDF,Word,WPS,XLS,PPT,TXT文件等!但目前的搜索引擎对图片视频,Flash这类非文字内容读取还差很远,也不能执行脚本内容和程序。