李亚涛搜索引擎工作流程

📁 软文 #搜索引擎

搜索引擎工作流程大概会涉及以下几个部分:

1、信息爬虫(蜘蛛)

2、内容处理

3、分词

4、去重

5、索引

6、内容相关性

7、链接分析

8、判断页面用户体验

9、反作弊

10、人工干预

11、缓存机制

12、用户需求分析

搜索引擎工作原理图如下:

搜索引擎原理整体分为三步:网页收集、预处理、查询服务

一、网页收集与预处理的流程大致如下:

第1步: 搜索引擎派出爬虫(spider蜘蛛),按照一样的策略把网页抓回到服务器

第2步:对抓取回来的网页进行链接抽离、内容处理、消除噪音版块、提取网页主题文本内容等

第3步:对网页文本内容进行中文分词、去除停止词(无意义的词,如的,啊,哦,是)

第4步:对网页内容进行分词后判断该页面内容与已索引网页是否重复,剔除重复页面,对剩余的网页进行倒排索引,然后等待用户的查询

二、当用户查询后,搜索引擎的工作流程大致如下:

第1步:先对用户所查询的关键词进行分词处理,然后根据用户的地理位置和历史搜索特征进行用户需求分析,然后个性化的展示用户最需要的信息

第2步:查询缓存中是否有该关键词的查询结果,如查有直接呈现查询结果,有时根据实际情况搜索引擎也会对缓存中的结果进行微调

第3步:如果用户查询的关键词在缓存中不存在,那就在索引库中的网页进行调取排名呈现给用户,并且将关键词与对应的搜索结果加入到缓存中,这样用户第2次搜索就直接调取缓存中的数据,效率更高

第4步:网页不仅是对索引库中的网页进行相关性、重要性进行排序,还有一个用户体验数据,也就是用户搜索后的点击和其他一些搜索操作,反过来也会影响到网页的排名

好了,今天就分享到这里

我是李亚涛,每天更新一篇原创文章,有1人看了有收获我就会非常开心!

发稿网(QQ:599515669)是全国领先的在线新闻稿发布平台,团队由资深互联网专家组成,服务内容类涵盖软文发布、软文代写、微信营销、微博营销、报纸广告、视频置顶、百度问答等多种互联网广告行业。发稿网平台有上千媒介编辑、专业写手、段子手、营销专家,为企业、公共机构和个人提供定制化的解决方案,将创意、智慧、技能转化为商业价值和社会价值。发稿网平台凭借多年的网络资源和客户资源积累,发展遥遥领先同行业其他软文平台。