搜索引擎工作原理

📁 软文 #搜索引擎

搜索引擎工作原理:

主要有三段工作流程:爬行抓取、预处理、服务输出

爬行抓取

主要功能是对网页进行抓取,目前有三种爬行抓取方法

  • 批量收集:对互联网上只要是存在链接的网页都收集一遍,耗时较长,在几周左右,缺点是增加了额外的带宽消耗,时效性也不高。

  • 增量收集:在原有已收集的网页基础上搜索新增加的网页,变更上次收集之后有改变的页面,删除收集重复和不存在的网页。

  • 站长通过工具向搜索引擎主动提交网站,这种方法的响应速度比较慢,主流上还是提倡让搜索引擎蜘蛛主动来爬取。

爬行策略
  • 深度优先爬行:沿着一条线抓取下去,知道最后,然后返回到另一条线

  • 广度优先爬行:在一个页面发现多个链接后,把所有第一层的链接抓取一遍,然后再沿着第二层、第三层……

预处理

也即对抓取回来的数据进行一个索引工作,其中包括多个流程,在后台提前完成。

关键词提取

将HTML、JS、CSS等标签&程序去除,提取用于排名的有效文字。

去除停用词

即反复出现的无用词,如:“得、的、地、啊、阿、再”等

分词技术

是中文搜索引擎特有的技术支持,中文不同于英文单词与单词之间用空格分隔,因此搜索引擎必须把整个句子切割成小单元词,分词的方法有两种

  • 基于字符串匹配的分词方法按照方向的不同,可以分为正向匹配、逆向匹配和最少切词,混合使用后产生正向最大匹配,逆向最大匹配、正向最小匹配、逆向最小匹配。笔者个人理解为按照中文的习惯对整句进行组词形式的拆分。

  • 基于统计分词方法 直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词语,将所有的统计结果匹配起来发挥切词的最高效率。

消除噪声

消除网页上各种广告文字、图片、登录框、版权信息等对搜索引擎无用的东西。

分析网页建立倒排文件

!

  • 正向索引:把页面转换为一个关键词组合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置,使每一个页面都可以记录为一串关键词组合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。

  • 倒排索引:正向索引不可以直接用于排名,倒排索引以关键词为索引

链接关系计算

计算出页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文本等,Google推出的PR是代表之一。

特殊文件处理

对flash、视频、PPT、XLS、图片等非文字内容不能执行脚本和程序。图片一般使用<alt>标签

服务输出

输出结果的展现方式,如:与搜索关键词匹配的部分用红色字体标出

提供

发稿网(QQ:599515669)是全国领先的在线新闻稿发布平台,团队由资深互联网专家组成,服务内容类涵盖软文发布、软文代写、微信营销、微博营销、报纸广告、视频置顶、百度问答等多种互联网广告行业。发稿网平台有上千媒介编辑、专业写手、段子手、营销专家,为企业、公共机构和个人提供定制化的解决方案,将创意、智慧、技能转化为商业价值和社会价值。发稿网平台凭借多年的网络资源和客户资源积累,发展遥遥领先同行业其他软文平台。