快速学会网站蜘蛛日志分析!

发布时间:2019-05-24 17:01:15
点击:
作者:风雪
来源:代代SEO

    网站蜘蛛日志分析是非常重要的一个环节,作为SEO优化人员必须掌握这项技能,我们通过网站蜘蛛日志的分析可以总结出:每天有多少蜘蛛来抓取我们的网站,都抓取了那些链接?有那些被成功抓取?那些抓取失败?为什么抓取失败?原因是什么?网站是否有被K的嫌疑等一系列信息!这对于我们SEO优化来讲都是非常重要的,下面我们进行详细讲解。


    网站蜘蛛日志在哪里获取?


    如果你是虚拟主机,你可以用FTP链接空间,里面的“Log目录”就存放着你的蜘蛛日志,如果没找到的,可以问你的空间商,他们会告诉你的,如果你用的WDCP面板、宝塔面板那么你需要在“www/wwwlogs”目录下来下载你的网站蜘蛛日志,如果用的windows服务器请在“BtSoft\WebSoft\apache\logs”目录中去寻找!另外蜘蛛日志都是以“.log”为结尾的文件,如果是“_log”你下载到本地,直接重命名为“.log”即可!


宝塔面板蜘蛛日志


    使用什么软件分析网站蜘蛛日志?


    当你把蜘蛛日志下载到本地的时候,你需要把日志放入软件去分析,我们常用到的软件有两种,第一种是在线的“www。loghao。com”日志分析工具,第二种是需要下载“光年日志分析软件”这两款分析日志工具非常不错,通常我们都结合使用,效果非常好!


光年日志分析工具


    如何识别蜘蛛都来自哪些搜索引擎


    下图是我用Notepad++软件打开网站日志的图片,下面做了详细的注解,分析蜘蛛来自哪个搜索引擎主要看“蜘蛛类型”就可以分辨出来!


蜘蛛日志表


    Baiduspider:就是百度蜘蛛,针对的是百度搜索引擎的抓取


    Googlebot:就是Googlebot蜘蛛,针对的是谷歌搜索引擎的抓取


    Sogou:就是搜狗蜘蛛,针对的是搜狗搜索引擎的抓取


    360Spider:就是360蜘蛛,针对的是360搜索引擎的抓取


    我们可以用光年日志工具来分析蜘蛛的抓取数据,非常直观!


光年日志分析数据


    网站蜘蛛返回状态码解析


    蜘蛛返回状态码,也就是上图的“蜘蛛返回状态码”,根据不同的返回状态码,我们可以分析出抓取成功、抓取未成功、是什么原因造成的等等信息,下面举出各类状态码所代表的意思!


    200:代表搜索引擎蜘蛛访问成功;同时代表抓取成功。


    404:代表页面无法访问;蜘蛛访问页面未找到资源。


    410:代表请求的资源已永久删除,蜘蛛抓取资源被永久性删除。


    301:代表页面跳转;表示蜘蛛抓取资源时,我们的链接进行了跳转。


    403:状态码表示服务器拒绝请求。应该检查robots或者服务器访问权限。


    500:(服务器内部错误) 服务器遇到错误,服务器很不稳定造成的。

        

    一般而言,蜘蛛状态码我们用在线工具“logohao。com”来查看比较方便!


haolog在线蜘蛛分析


    当然也可以用光年日志分析软件进行分析蜘蛛抓取状态码!


光年日志分析蜘蛛状态


    如何查看蜘蛛抓取了那些链接目录


    链接与目录,我们通过上图的“蜘蛛抓取目录”可以分析出来,比如“/robots.txt”就是我们的“域名/robots.txt”我们通过光年日志进行分析比较直观一些!我们可以通过点击光年日志左边的“目录抓取”、“页面抓取”来进行查看分析!


目录抓取分析


页面抓取分析


    通过IP段分析蜘蛛类型


    IP段是指上图中的“蜘蛛IP”,这个IP代表的意思非常多,有降权蜘蛛,沙盒蜘蛛,高权重蜘蛛,低权重蜘蛛等等,通过蜘蛛IP段我们可以分析出我们网站的整体质量,下面来详细讲解下!


    123.125.68.*:这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。


    220.181.68.*:每天这个IP 段只增不减很有可能进沙盒或K站。


    220.181.7.*、123.125.66.*:代表百度蜘蛛IP造访,准备抓取你东西。


    121.14.89.*:这个ip段作为度过新站考察期。


    203.208.60.*:这个ip段出现在新站及站点有不正常现象后。


    210.72.225.*:这个ip段不间断巡逻各站。


    220.181.108.*:段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。


    220.181.*:段属于权重IP段此段爬过的文章或首页基本24小时放出来。


    123.125.71.106:抓取内页收录的,权重较低,爬过内页文章不会很快放出来,因不是原创或采集文章。


    220.181.108.91:属于综合的,主要抓取首页和内页,属于权重IP段,爬过的文章或首页基本24小时放出来。


    我们通过“loghao。com”分析日志的时候,也可以从首页分析中更直观的看出来!


蜘蛛IP段分析


    今天我们就分享到这里,如果大家可以从这篇文章学到知识的话,大家可以参加我们代代SEO实战SEO培训,我们有一套绝对有效的排名技术,同时包括“网站建设-》实战排名-》成交转化-》项目包装”等这一些列的教程内容,价格非常优惠,课程通俗易懂,同时也包售后这一块!

微信扫一扫赞助

    匿名评论
  • 评论
人参与,条评论