搜索引擎是指根据一定的策略，运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

搜索引擎工作原理总分为三步

爬行和抓取：搜索引擎蜘蛛通过跟踪链接访问页面，获得页面HTML代码存入数据库。

预处理：索引程序对抓来的页面数据进行文字提取，中文分词，索引等处理，以备排名程序调用。

排名：用户输入关键处后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

去停止词

一些出现频率很高，却对内容没有任何影响的词称为停止词。

消除噪声

消噪：根据HTML标签对页面分块，区分出页头，导航正文，页脚，广告等区域，在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后，剩下的才是页面主体内容。

去重：从页面主题内容中选取一部分最具有代表性的的关键词(常是高频词)，计算这些关键词的数字指纹。这里的关键词选取是在分词，去停止词，消噪之后。

正向索引

按照分词程序划分好的词，把页面转换为一个关键词组成的集合，同时记录每一个关键词在页面上的频率，次数，格式，位置。

倒排索引

搜索引擎把文件对应到关键词的映射转换为关键词到文件的映射。当用户搜索某个关键词时，排序程序在倒排索引中定位到关键词，可以马上找出所有包含这个关键词的文件

链接关系计算

搜索引擎在抓取页面内容后必须事前计算出:页面上有哪些链接指向那些其他页面，每个页面上有哪些导入链接，链接使用什么描文本，这些复杂的链接指向关系形成了网站和页面的权重。

特殊文件处理

处理HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，PDF,Word,WPS,XLS,PPT，TXT文件等！但目前的搜索引擎对图片视频，Flash这类非文字内容读取还差很远，也不能执行脚本内容和程序。