百度是如何知道你想要的其实只靠两点

📁 软文 #百度算法

知道我们每天使用的搜索功能是如何实现的吗?想知道百度、百度是如何根据关键字提供网页结果的吗?想知道为什么偶尔出现搜索的结果不是我们需要的吗?下面我们就来了解搜索引擎的运作原理吧

百度搜索

百度搜索引擎是怎么运作的

网络搜索引擎原理有两个主要功能:爬行网站(crawling) 跟建立网站索引(index),并且提供一个搜索引擎认为最相关的结果列表给搜索的人们,并且使用网页相关性去排序/ 排名( ranking) 这些搜索结果网页。

爬行与建立索引

在网络上爬行,也就是到处采集别人网站的信息。然后索引数千万字的文件、网页、档案、影片、与各式媒体。简单讲就是到处采集别人网站的信息,然后做个目录保存起来。最后像一本书一样。

提供搜索结果

为使用者提供答案到搜索搜索查询结果,通常通过他们检索的相关页面列表进行查询,并进行相关性排序/ 排名。而我们输入关键词就是找目录的过程,结果就是给你一个最接近的。

那么,接下来就此两个部分为基础,来拆解网络搜索引擎原理。

爬行与检索

网络是相互连接的,这样就能接触所有网络上的网页

百度搜索引擎会有个自动化机器人,被比喻为爬行者(crawlers) 或蜘蛛(spiders) 去采集数以千万计的网页。就像蜘蛛顺着蜘蛛网爬行一样。

搜索引擎找到新的网页,他们就会阅读理解这些页面中的内容,并且把选择主要的信息储存在数据库当中,当需要在搜索查询被使用的时候再找出来使用。为了完成数十亿网页的庞大任务, 百度搜索引擎已经在我国各地建立了数据中心。

这些庞大的数据储存设备拥有数千台机器,能够快速处理大量的信息。当一个人在百度搜索引擎上进行搜索时,他们就能立即取得搜索结果,即使是一秒钟或两秒钟的延迟也会让搜索者不开心,所以搜索引擎尽可能快地提供答案。

提供答案

搜索引擎是就是为了提供答案,当一个人在进行网络搜索时,搜索引擎会搜索他拥有数十亿文件的资料库,并做两件事:首先,它只提供那些与搜索者查询相关或有用的结果,其次,根据提供资讯的网站的知名度对这些结果进行排名,代表了你的网站与搜索者意图的相关性(relevance) 以及是否受欢迎(popularity)。

搜索引擎如何决定相关性与人气

对于搜索引擎而言,「相关性」的意义不仅仅在于找到合适的词汇。在网络建立的早期,搜索引擎只能检查网站是否有搜索查询提到的词汇,搜索结果的价值有限。多年来,聪明的工程师已经设计出更好的方法来将结果与搜索者的疑问进行配对。直到今天则有了数百个因素去影响相关性。

搜索引擎通常假设网站的页面或文件越受欢迎,它所包含的信息就越有价值,然而人气和相关性不是手动确定的,引擎使用各种算法,计算相关性,然后按质量(人气)排序。

不是我想要的答案

有时候我们会遇到搜索得到的结果完全不是我们需要的。这其实不能怪搜索引擎。因为他再强大也只是个程序,是个机器。而且我们中文的语义又是特别丰富的。所以搜索引擎难免会有吃力的时候。但是相信未来会有越来越智能的搜索引擎,到时候就不会有这种情况了。

以上就是百度通过搜索引擎算法进行搜索排序/排名的搜索引擎原理,阅读到这边,大家是否能够更加理解我们每天搜索时发生了什么,我们为什么得到这样的答案呢?