搜索引擎预处理规则有哪些

📁 软文 #搜索引擎

想要做好SEO,最关键的是把握好搜索引擎的工作原理,想要全面的了解搜索引擎,还需要了解搜索引擎的处理规则都有哪些,只有这样才能做到有的放矢。

第一,提取文字。现在的搜索引擎主要还是以文字内容为基础的,蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字处,还包含了大量的HTML格式标签,Java程序等无法用于排名的内容,搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。

第二,中文分词。分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个词组成一个词,哪些字本身就是一个词。

第三,去停止词。无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,而搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

第四,去除噪音。绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字,导航条、广告等。而这写没什么贡献的内容就都属于噪声,对页面主题只能起到分散作用。

第五,去重。去重的基本方法是对页面特征关系词计算指指纹,也就是说从页面主体内容中选取最有的一部分关键词,然后计算这些关键词的数字指纹。这些关键词选取是在分词、去停止词、消噪之后。

你一定听说过要想做好SEO只要把握好细节就行了,但是需要注意的问题是,细节那么多,怎么可能一一顾得过来,细节固然重要,但掌握这些细节的规律和法则就显得更为重要,今天SEO教程就为大家总结一下做好SEO需要掌握的四大法则。

一、抓取。抓取就是指想办法让搜索引擎来访问我们的网站,只有这样,我们才能有更多的机会收录。搜索引擎每天都在发生变化,所以我们要时更时新,从整体出发,如果只从细节出发,势必会舍本逐末。

二、过滤。抓取是第一步,而搜索引擎的第二步工作性质是分析抓取回去的网页质量度如何了,这也是网站的核心内容是否能让搜索引擎满意。所以,我们必须要有优质的内容输出。这个就是非常考验我们的网站内容专业度了,如果内容一味是采集的,其收录自然就不会好到哪里去。

三、索引。索引是指可以用site命令输出的内容,做好索引就说明网站内容做的很好了,代表你的网站有被蜘蛛很顺利的爬取完,网站的内容也被认可了。

四、排名。其实搜索引擎会在不定时期放出几个关键词来测试用户的反馈情况,如果数据好,会再多放出几个关键词再来测试。数据好的话,排名情况自然会好,这些前提是网站受到搜索引擎的信任,有着很高的权重。

把握好这四大法则,也就是大的框架,在这个框架里面再用细节进行问题的处理,就会起到事半功倍的作用。以上精彩的文章由 真火模拟训练系统http://www.cacfire.com进行实时分享!