搜索引擎蜘蛛日志怎么看 监控蜘蛛数据的意义

📁 软文 #搜索引擎

查看蜘蛛爬行日志是非常有必要的,从数据反馈问题发现问题,才能有目标性的去改进调整。怎么查看搜索引擎对网站的爬行记录,可能有些朋友还不了解,下面来介绍一下。

首先得取出网站的访问日志,里面包括了用户访问和蜘蛛访问。日志文件在服务器里面,用ftp软件登录到服务器下载就可以了。注意:不同的服务器位置不一样,通常logs的文件夹就在里面。日志文件每天会更新,有些按周更新看服务器设置问题。

拿到日志文件之后,需要用工具把文件拆分开来,方便分析。工具有很多,笔者习惯使用光年数据分析工具,很老的工具了。用这个工具可以拆分出百度蜘蛛,和其他蜘蛛,按照不同时间段等等,按照不同纬度来拆分数据,从而做出判断。

工具怎么使用我们下次说,我们就谈一下通过搜索引擎蜘蛛数据,我们可以解决什么问题。做SEO优化相信大家的目的都是一致的,就是流量!流量!流量!

搜索引擎流量的前提是排名,排名的前提是收录,收录的前提是抓取。通过蜘蛛爬行日志,我们可以知道网站内容有多少被抓取过,有哪些内容是没有被抓取的,文章的抓取率是多少,抓取过的内容收录率多少。

从数据反馈网站最根本的问题,比如内容没有被抓取,我们需要多提交链接或者做一下外链解决抓取的问题;内容抓取率低,可以从网站布局和蜘蛛入口方面想办法;抓取了但不收录,可以从文章质量入手。

下面我们来看看搜索引擎蜘蛛日志帮我们解决了什么问题。

网站上线3个月搜狗还没收录,笔者拿到他网站的日志,查看搜狗的蜘蛛之后,终于知道搜狗为什么不收录,因为抓取的都是不存在的页面,都是404,唯一一个200还是爬虫协议。

后来了解到这个网站经过改版重新上线的,以前一堆老链接还在搜狗的爬行库里面,笔者只是让他做了一个动作。就是robots里面把蜘蛛爬行的404目录给屏蔽掉。

把不存在的目录屏蔽掉后,在搜狗站长工具后台提交首页链接,第二天蜘蛛开始正常爬取。如果没有看蜘蛛数据,那么就不知道是什么问题,看到一直不收录可能以为是文章质量问题,事实上根本就没有抓取何来收录?

从蜘蛛数据发现大量的相同链接同时抓取,第一次抓取后301重定向到第二次;

问题,网页中大量存在不带/的栏目链接,蜘蛛自动重定向到带/的链接。这里就需要找出这些代码修改一下调用规则。

从蜘蛛数据发现大量的404,是网站个性化的浏览器图标标识

问题:页面的模版图标链接用了相对链接,改回绝对链接即可。

我们可以在蜘蛛的日志文件发现很多问题,然后针对问题来解决问题,而不是盲目判断做一些无谓工。另外从蜘蛛数据长期监控趋势,再结合网站的操作,可以发现操作会对SEO有什么影响,好的加大力度,不好的改进。