
通常我们讲所谓的搜索引擎对页面重复算法的判定,就是指站在网站优化的角度搜索引擎所做出的一些重复识别分析的对策。
搜素引擎会对网站的所有页面进行一系列的净化与消重的操作
一般都在搜索引擎未对页面判定之前就做出内部的净化与消重的操作,一般会对页眉页脚、版权信息、内页广告等进行净化操作。这样的一个过程当中会提取出页面的主题和相关信息用来作为页面得分的依据,如果存在噪音的内容是绝对不会被计入排名的。在整个操作模式下,极端或主题完全相同的信息会被是为冗余信息被消除掉。我们可以想象一下一篇完整的文章,搜索引擎只会把标题和主题的内容计入排名序列,而其他的基本上都会被清理掉。
DocView的模型最核心的策略就是可以涵盖网页的标识、类型、内容识别效应、标题、关键词、摘要、正文、外链的更要素,通过这种策略主要就是针对信息分类和网页消重操作。
搜索引擎对消重过的页面会进行循环判断
其判断的方法主要是采用观测内容的相似度、结合内容与连接关系的相关性、检测链接关系以及域名文字进行相似度的分析。前者是内容识别的方法,剩下两个策略是通过对超链接的分析。通常都是为每一个页面进行检测,发现两个页面相似度接近时就会认为是这两个页面重叠系数比较高就也就是所说的内容重复。算法对页面的检测只要就是将导航以及标志、版权等信息排除掉之后对这些页面过滤后所剩余的信息量。

Goog这样的搜索引擎在自动抓取页面的时候都会自动记下页面的关键词,也就是我们说的分词技术。记录所有关键词的权重、密度提取meta descrīption或者页面的有效描述信息。
算法的结果取决于对内容的识别度,选取关键词的数量越多判定就会越准确,计算时间就会被自然拉长。根据实验的结果显示,10个左右的关键词是最为恰当的,所以说必须要考虑一下消重的速度和内容识别的准确率。
其实算法只是给网站优化人员的一个思路,并不能代表搜索引擎判定页面的所有算法。只要控制好了原创与伪原创的精准度,一般这些还是不用过于上心的......
发稿网(QQ:599515669)是全国领先的在线新闻稿发布平台,团队由资深互联网专家组成,服务内容类涵盖软文发布、软文发布、微信营销、微博营销、视频置顶、百度问答等多种互联网广告行业。发稿网平台有上千媒介编辑、专业写手、段子手、营销专家,为企业、公共机构和个人提供定制化的解决方案,将创意、智慧、技能转化为商业价值和社会价值。发稿网平台凭借多年的网络资源和客户资源积累,发展遥遥领先同行业其他软文平台。