
一、前沿
一个合格的SEO必须了解搜索引擎基本工作原理,很多看似令人迷惑的SEO原理及技巧,其实从搜索引擎的角度出发,那都是自然而然的事情。那么我们为什么要了解搜索引擎原理呢?说到底,SEO是在保证用户体验的基础上尽量迎合搜索引擎。与研究用户界面及可用性不同的,SEO既要从用户出发,也要站在搜索引擎的角度考虑问题,才能清晰地知道怎么优化网站。SEO人员必须知道:搜索引擎要解决什么问题,有哪些技术上的困难,有什么限制,搜索引擎又怎么取舍。
SEO
从某个角度来说,SEO人员优化网站就是尽量减少搜索引擎的工作量、降低搜索引擎的工作难度,是搜索引擎能更轻松、快速地收录网站页面,更准确地提取页面内容。不了解搜索引擎的工作原理,也就无从替搜索引擎解决一些SEOER力所能及的技术问题。当搜索引擎面对一个网站,发现要处理的问题太多,难度太大时,搜索引擎可能就对这样的网站敬而远之。
二、搜索引擎和目录
在早期,SEO方面的资料经常把搜索引擎和目录混合一谈,这样是不准确的。真正的搜索引擎指的是由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,经过预处理,用户在搜索框输入关键词后,搜索引擎排序程序从数据库中挑选 出符合搜索关键词要求的页面。蜘蛛的爬行、页面的收录及排序都是自动处理,无需人工干涉。目录并不是我们所说的书本上的那种目录,它是一套人工编辑的分类目录,由编辑人员人工创建多个层次的分类,站长可以在不同分类里提交网站,目录编辑在后台审核所提交的网站,将网站放置于相应的分类页面。有点时候编辑也主动收录网站,典型的就是好123等等。

搜索引擎收录的页面数远远高于目录能收录的页面数。但是搜索引擎收录的页面质量参差不齐,对网站内容和关键词提取的准确性通畅也没有目录高。现在的网站目录对SEO的最大意义是建设外部链接,比如雅虎、好123等等都有很高的权重,可以给被收录的网站带来一个高质量的外部链接。
三、搜索引擎面对的挑战
搜索引擎系统是最复杂的就是系统之一,当今主流搜索引擎服务商都是大公司。虽然他们有技术、财力、人力的保证,但是搜索引擎还是面临很多技术挑战。具体如下:
1、页面抓取需要快而全面
互联网是一个动态的内容网络,每天有无数页面被更新、创建,无数用户在网站上发布内容、沟通联系。要返回最有用的内容,搜索引擎就要抓取到最新的页面。但是由于页面数据巨大,搜索引擎蜘蛛更新一次数据库就需要花费很长时间。现在主流搜索引擎都已经能在几天之内更新重要页面,权重高的网站上的新文件几小时甚至几分钟之内就会被收录。不过,蜘蛛快速收录和更新也只能局限于高权重的网站,很多页面几个月不被抓取和更新也是很常见的事情。
搜索引擎蜘蛛
2、海量数据存储

一些大型网站单是一个网站就有成百上千的页面,可以想象一下,这些页面加起来是多么大的数据量,搜索引擎抓到这些数据后,还必须有效的存储这些数据,数据结构必须合理,具备极高的扩展性,写入和访问的速度要求也很高。除了页面数据,搜索引擎还需要存储页面之间的链接关系及大量的历史数据,这样的数据量是用户无法想象的。我们经常在搜索结果中看到,排名会没有明显原因地上下波动,甚至可能刷新一下页面,就看到不同的排名,有的时候网站数据也可能丢失。这些都可能与大规模数据存储的技术难度有关。
3、索引处理快速有效,具有扩展性
搜索引擎将页面数据抓取和存储后,还要进行索引处理,包括链接关系的计算、正向索引、倒排索引等等。由于数据库页面数量大,进行PR之类的迭代计算也是耗时费力的。要想及时提供相关又及时的搜索结果,仅仅抓取是没有用的,还必须进行大量索引计算。由于随时都有新数据产生,因此,索引处理也要具备很好的扩展性。
4、查询处理快速准确
查询是普通用户唯一能够看到的搜索引擎工作步骤。用户在搜索框里输入关键词,点击“搜索”按钮后,通常不到一秒钟就会看到搜索结果。表面看似简单的过程,其实背后涉及到非常复杂的运算。在最后的查询阶段,最重要的难题是怎么样在不到一秒钟的时间内,快速从几十万、几百万、甚至上千万搜索词的页面中,找到最合理、最相关的1000个页面,并且按照相关性、权威性排列。
4、判断用户意图及人工智能
搜索引擎目前正在致力于基于用户搜索习惯及历史数据的了解上,判断搜索意图,返回更相关的结果。今后搜索引擎是否能达到人工智能水平,真正了解用户搜索词的意义和目的,让我们拭目以待。