共计 1817 个字符,预计需要花费 5 分钟才能阅读完成。
2013-09-09 00:07:16 59.60.7.125 get /news/news2013524236.html – 80 – 123.125.71.16 http/1.1 mozilla/5.0 (linux;u;android 2.3.7;zh-cn;) applewebkit/533.1 (khtml,like gecko) version/4.0 mobile safari/533.1 (compatible; http://www.baidu.com/search/spider.html) – – www.jinh.cn 200 0 0 16143 296 140
上面一段文字是笔者从网站日志中截取的完整的一小段。get 的前面有两个数据,前半部分是时间,后半部分就是你网站的域名 ip 了,get 后面到 - 前面所代表的是蜘蛛所爬行的页面。若什么都没有的,就代表了它爬了你网站的m6米乐app登录首页。
后面的 - 后面就是非常重要的爬行蜘蛛的 ip 了。一般常见的 ip 其实就两种一种是提权蜘蛛的 ip220.181.108.*,另一种就是垃圾内容的查看蜘蛛 123.125.71.*。对于新站来讲,还需要特别留意一个 ip:121.14.89.*。这个 ip 代表了你的新站已经摆脱了新站的考察期,正式成为一个普通网站看待。
还有一些需要注意的就是 ip 的第三个区间段为 68 或者 51 的 ip,当这些 ip 大量出现在你的网站的时候,我可以负责任的告诉你们:亲们,你可以为你的网站准备后事了。
当然很多时候你还会发现很多你看不懂的 ip,大多时候都是你在用一些网站监测工具的时候,它们模拟百度蜘蛛产生的 ip,如站长之家,爱站网等。这些的冒牌货用 nslookup 命令一查便知,完全没必要太过于在意。
然后 ip 后面跟着的一大堆唯一要注意就是那个网址。它代表了蜘蛛找到你的网站的入口。比如你再某博客或者论坛发表了一篇文章,而后面发现蜘蛛是从那里找到你的网站的。那么,说明这个外链是效果比较好的,你就可以继续坚持去做下去。然后就是最后那些返回值了,就是 200 0 0 这一段。返回的代码一般有 200、301、304、403、404 这些代码在网上都可以找到先关说明笔者就不多做介绍了。最后的那三个值代表了下载,上传以及耗时。
百度最初爬行网站的内容的蜘蛛应该都是 220.181.108.*,百度在爬行每一个新页面的时候都是用提权蜘蛛,然后通过提取到的内容,返回数据库进行对比,从而决定了第二次爬你网站蜘蛛的 ip。也就是说,所谓的 220.181.108.* 爬过的网页隔天收录是针对第二次的 ip 而言。
两个 ip 分别是 220.181.108.97 和 123.125.71.49 可以很容易看出来这 2 个 ip 一个是提权的蜘蛛,一个是垃圾内容的蜘蛛。
日志分析的主要作用是:
第一:内容上的指导。当我们网站的页面出现 123.125.71.* 的 ip 时我们应该引起警觉。对于这样的页面我们应该第一时间去查看下,这个页面的内容是否抄袭,或者内容是否属于垃圾内容。对于 123.125.68 以及 220.181.51.* 的 ip 我们应该把它理解为百度蜘蛛对你网站的警告。对于这些情况我们应第一时间对于想对应的页面进行整改。很多时候我们蜘蛛在访问网站的时候会返回 301,304,403,404 等代码,我们也要及时地应对。
第二外链上的指导。很多时候我们在发外链的时候可能不知道什么样的外链是有效的,什么是高质的,什么是垃圾的。这是一个很难以确定标准的东西。但是我们在网站日志里可以看到一些端倪。例如网站每次记录都是有一个来源的,通过入口的来源,我们可以发现,这条记录百度是通过哪里进入你的网站的。或者很多有心的人会发现,我们发外链的时候所给的链接是不一样的。
第三,综合的指导。经常性我们在日志里可以发现一些返回值不是 200 的条目,而通过日志的返回值我们就可以很容易地找到,这个页面,并且对于这个页面的错误或者不足进行修改。而通过对于网站每天日志的对比记录,我们可以发现,蜘蛛每天来网站的次数是增加了还是减少了。如果增加了,是一些友好的 ip 还是不好的 ip,这些记录又是从哪个入口进入的。从而分析出我们在日常的网站 seo 工作中,在哪些方面是做得比较好的,哪些方面是不足的。
再次强调一点,蜘蛛的 ip 是在未爬行到网站之前决定的,所以千万别看到 220.181.108.* 的 ip 就以为是天使的眷顾,它也很可能是死神的镰刀! 下次笔者将和大家分享,如何深度分析网站的日志。