SEO优化上首页之搜索引擎内容处理与索引

📁 软文 #搜索引擎

上文《搜索引擎原理SEO优化上首页之蜘蛛Spider》详细介绍了蜘蛛的分类、抓取入口、抓取策略和更新策略。搜索引擎已把页面抓取回来,接下来是解析页面内容,主要包含判断页面类型、提取页面主题、去除页面噪声、去停止词、中文分词并登记统计、去重建立关键词索引库。

1. 判断页面类型

判断页面是普通页面还是PDF、WPS、PPT、TXT等特殊页面;区分文本、图片、视频等内容形式,识别页面网站论坛、商城、视频站、文字站等。

2. 提取网页主题

目前搜索引擎基本无识别JS、Ajax、Flash、图片、视频、frame和iframe框架结构里面内容,主要抓取文本处理,通过文本关键词检索信息。提取网页Title、Keywords、Deion等页面级特征内容。这些特征在网页内容相关性中占很高比重,正常情况,也表明了该网页的主题。

3. 消除页面噪声

消除无关广告、登录框、版权声明等噪声内容,提取主题内容。这部分不是很严谨,各搜索引擎的处理也不尽相同,一般推荐内容、锚文本、导航等还是很有价值。

4. 中文分词

分词是中文搜索引擎特有的步骤,搜索引擎需要识别哪些字可以组合成词,各搜索引擎都有自己的海量词库,基于词库匹配,把网页内容分切,如“旅游景点推荐”可能分成“旅游/景点/推荐”或“旅游景点/景点推荐”等结果。中文分词主要有基于词典的匹配和基于统计两种方式,它们各有优劣,实际使用中都是混合使用这种方法,既可以快速高效,又能识别新词消除歧义。

百度搜索引擎可以通过快照页面,查看输入的文字被分割成什么关键词,如下

分词的目的是为了理解页面内容,会先剔除的、了、得、啊、吧等停止词,这样网页文本的主题内容就更突出。当然虚词也不是绝对的,比如在“啊”为主题介绍该字读音、意义、用法等新华字典页面,“啊”是主题关键词。关键词排名优化就是要不断跟踪和分析搜索引擎的词条和历史数据。

5. 统计分析页面

分词之后,搜索引擎会统计页面各词出现的次数,计算密度,这样搜索引擎就能识别该网页内容相关性。建议大家关键词布局密度在2%~8%之间,太低容易被识别成主题内容相关性低,太高可能会被认定为关键词堆砌作弊,容易受处罚。

内容相关性,除了网页Title、Keywords、Deion、词密度外,H标签(H1标签分量也很重,一般用于文章标题,H2,、H3标签也略有效果,一般用于分段主题,H4之后就没作用)、加粗标签标注的内容会明显比其他普通内容更受重视。另外,核心关键词出现在网页前面比后面效果好。锚文本链接相关性作为重要数据收集分析。

6. 去重创建索引

搜索引擎喜欢原创内容,不喜欢大量重复性的内容页,在完成上面步骤就可以对页面内容特征识别,去重重复内容页面。

经过上面流程,已经把记录了页面关键词集合,并记录了词频率、位置、格式(H标签、加粗、锚文本)等权重因子,搜索引擎将页面及关键词表创建索引结构,索引有两种结构:正向索引结构和倒排索引结构。正向索引结构中,每个文件对应一个文件ID,文件内容被表示为关键词的集合。

搜索引擎的用户是通过关键词检索的,正向索引不利于查询效率,搜索引擎会把正向索引转成倒排索引。倒排索引结构是关键词到文件集合的映射。只有被建立索引的页面才会被用户检索到。

收录和索引

收录:只要是能被搜索引擎蜘蛛抓取过,分析后,认为有存在价值的页面,就会被收录。

索引:搜索引擎已经收录了的页面,并认为内容对用户有意义的见面,才可能会被创建索引,才可能有流量。网站排名优化都是基于已经创建了索引的页面。

精灵儿工作室提醒大家,只要网站结构清晰,内容有价值,规律更新网站,然后站长平台提交链接和发外链可以提高搜索引擎对网站的收录和索引量,2~7天seo优化上首页是很有可能的。

百度优先建创建索引的原则

百度蜘蛛抓了多少页面并不是最重要的,重要的是有多少页面被建索引库。搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足,这就是为什么有些网站的收录量超高流量却一直不理想。

进入优质索引库的前提是对用户的价值。包括却不仅于:

(1)有时效性且有价值的页面

(2)内容优质的专题页面

(2)高价值原创内容页面

(4)重要个人页面

哪些网页无法建入索引库

上述优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。最初环节就被过滤的情形:

(1)重复内容的网页

(2)有些内容使用了百度spider无法解析的技术,如JS、Ajax、Flash、图片、视频等

(3)加载速度过慢的网页

(4)很多主体不突出的网页。

(5) 部分作弊网页