ICP备案+网站制作+网站托管一年只需3000元

网站建设、行业建站案例

搜索引擎工作原理内容处理的步骤

搜索引擎工作原理中内容处理部分在相关seo书籍和网络文章中已经分析得很透彻,其实这部分内容中有不少东西值得研究思考,并能运用到日常的seo工作中。不论是白帽还是黑帽seo,在这部分都有很大技术和逻辑上的操作空间。

搜索引擎对抓取回来的页面内容处理步骤具体如下:

1、判断该页面的类型

首先判断该页面的类型:网页(文本内容、图片内容、视频内容)、pdf、office(word、excel、ppt),然后针对不同类型,进行针对性的处理。

2、提取网页的文本信息

搜索引擎看的是网页源代码,去掉html代码,对于JS、flash、图片、视频等内容还是很难抓取,主要提取文字内容。

3、去除页面噪音

页面噪音就是与页面主体内容不相关的广告、导航、登入框、网站版权信息等。但主要百度不会把主体内容以外的都去除,比如相关推荐在一定程度上也会被算作本页的内容,也会在百度搜索排名中有直观的体现。甚至于页面不相关的链接文本也会被保留索引,比如百度搜索复制本页地址,就会知道去噪并不是很严格。

因此seo人员对于网页主体内容外的推荐内容、链接、锚文本等一切元素要加以利用,而不是随便加一些不相关的内容。很多seoer都说要注重细节,但实际工作中又有多少真正重视、研究和利用了呢?

4、去除内容中停止词

停止词就是一些比如“得、的、地、了、呢、啊、呀、嘻”等无关紧要的一些词,其实此步骤是存在疑问的,对于普通文章来说,去除这些词有利于搜索引擎对内容进行分词和理解,并且可以减少搜索引擎的计算量。但是搜索包含这些词的关键词时也是有很多搜索结果。

经过以上处理后,搜索引擎就会对已经被初步处理过且有索引价值的网页进行正向索引和倒排索引处理了。

发稿网(QQ:599515669)是全国领先的在线新闻稿发布平台,团队由资深互联网专家组成,服务内容类涵盖软文发布、软文发布、微信营销、微博营销、视频置顶、百度问答等多种互联网广告行业。发稿网平台有上千媒介编辑、专业写手、段子手、营销专家,为企业、公共机构和个人提供定制化的解决方案,将创意、智慧、技能转化为商业价值和社会价值。发稿网平台凭借多年的网络资源和客户资源积累,发展遥遥领先同行业其他软文平台

相关推荐

评论 抢沙发