7月13号,发了篇帖子,说是要专门等百度来K。为此,把一些百度很忌讳的地方给改了改。 以前的Title是:以关注SEM的眼光去专注SEO; 现在改过来的是:SEO,SEO,SEO,还是SEO,就等百度被K中; 俗话说,不入虎穴焉得虎子?俗话还说,舍不得孩子套不着狼! 为此,我决定采用一些极端的SEO手段一试,顺便也能验证一下前人总结出来的结论究竟是真是假!或者说,以前是真的,现在是不是还是真的?怀着这样的好奇,等待百度被K的实验就这样上路了。 再一次郑重声明一遍:在这儿,我不是在传教布道,我也不是谁谁谁的老师,我不敢说是在分享自己的经验,更不敢说大家从这里能够学到什么。 我只是一个爱问、爱想、爱说的一个互联网草根;有一说一,是什么就说什么,我跟各位一模一样,我们都是同学,我们都是互联网时代下的进步青年。 更何况,闻道有先后,术业有专攻。某一领域的先知并不代表整个行业或整个产业的先行! 这不是打官腔,也不是说套话,这是发自内心的肺腑之言!我们可以一起交流、一起学习、一起提高!但我绝不会也看不惯总是以一副居高临下、道貌岸然、高高在上的姿态去俯视所有来此博的读者,不管是以前、现在、还是将来,永远都不会!一没那资格,二没那能耐! 这不,今天想分析一下WP博客上的日志,但不会安装AWStats这一工具,只能用最笨的办法来分析了。因为办法太笨,所以,只能捡几条具有代表性的日志说一说了。先看Baiduspider爬过的这么一组日志: 220.181.7.22 – - [13/Jul/2010:11:49:32 -0500] “GET /tag/SEO战术/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.17 – - [13/Jul/2010:11:49:32 -0500] “GET /tag/seo战术/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.40 – - [13/Jul/2010:11:49:33 -0500] “GET /tag/seo战术/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.37 – - [13/Jul/2010:11:49:34 -0500] “GET /tag/seo战术/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.102 – - [13/Jul/2010:11:49:35 -0500] “GET /tag/seo战术/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.45 – - [13/Jul/2010:11:49:36 -0500] “GET /tag/seo战术/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.43 – - [13/Jul/2010:13:19:23 -0500] “GET /tag/SEO悲哀/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.103 – - [13/Jul/2010:13:19:24 -0500] “GET /tag/seo悲哀/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.109 – - [13/Jul/2010:13:19:26 -0500] “GET /tag/seo悲哀/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.104 – - [13/Jul/2010:13:19:27 -0500] “GET /tag/seo悲哀/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.26 – - [13/Jul/2010:13:19:28 -0500] “GET /tag/seo悲哀/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.24 – - [13/Jul/2010:13:19:28 -0500] “GET /tag/seo悲哀/ HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 别看这么多条,Baiduspider其实也就爬了两个Tag,一个是“SEO战术”(7月10号发布),一个是“SEO悲哀”(6月18号发布),这两个Tag是的发布时间相差几乎一个月;那Baiduspider是在爬行“SEO悲哀”的时候找到了“SEO战术”呢?还是在爬行SEO战术的时候碰到了“SEO悲哀”? 好,那我们接着观察这两个页面之间的联系: 一个是:http://xiaoo.net/tag/seo%E6%82%B2%E5%93%80/ 一个是:http://xiaoo.net/tag/seo%E6%88%98%E6%9C%AF/ 通过查看源文件,此两页之间并没有架接任何Link,说明我们之前的推断是有误的。但至少可以说明一点,那就是百度喜欢爬Tag,至于为什么?网上查去,说这方面的人很多。 对了,还有一个HTTP状态码,这组日志返回的状态码都是301。而301状态码的意思是:请求的网页已永久移动到新位置。当URLs发生变化时,使用301代码。搜索引擎索引中保存新的URL。 我很纳闷,这个小博(xiaoo.net)从来没有做过什么301转向呀?!也不存在网页的URL会出现什么新的位置呀?!应该返回200才对呀!还有后面,加了一个“20”是什么意思,我不清楚! 还有前面的日期(13/Jul/2010:13:19:23 -0500)上加了一个“-0500”是什么意思,也不清楚。不清楚没关系,至少我们知道这两个Tag是爬过去的,那我们检查一下收录了没有。 从百度分别敲上“SEO战术”和“SEO悲哀”,找找看,看能否发现“http://xiaoo.net/tag/seo战术”和“http://xiaoo.net/tag/seo悲哀”这两个URL吗? 找了一圈,没有发现,看来百度只是爬行,并不曾收录!为什么?问百度吧。 再看这么一组日志: 220.181.7.51 – - [13/Jul/2010:16:18:50 -0500] “GET /2010/04/26/1406 HTTP/1.1″ 301 20 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.35 – - [13/Jul/2010:16:18:50 -0500] “GET /2010/04/26/1406/ HTTP/1.1″ 200 11793 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 这条帖子是4月26号发的,从IP上可以看出,是两个不同服务器下面的Baiduspider。而且返回的状态码也都不同,一个是301,一个是200。看来,220.181.7.35抓取的是正确的,但是后面跟一个数字“11793”是什么意思?不清楚! 像这样的数字还很多,比如下面这组日志: 220.181.7.29 – - [13/Jul/2010:14:49:06 -0500] “GET /2010/07/09/1019/feed/ HTTP/1.1″ 200 5514″-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)” 220.181.7.53 – - [13/Jul/2010:18:00:20 -0500] “GET /2010/06/18/1021/ HTTP/1.1″ 200 11758 “-”"Baiduspider+(+http://www.baidu.com/search/spider.htm)” 好了,通过观察,我13号当天发的那篇帖子并没有被爬行过,至于这些爬行过的帖子有多少是收录的,可以用Site:xiaoo.net 去查询,这个都知道,都在用,不用多说。 等那个分析日志的工具装上了,可能会看到更多的Baiduspider抓取痕迹,今天这篇帖子先凑合着看吧。 ====================================
作者:小小SEO践行者·小欧
原载:分析Baiduspider爬行痕迹之一
来源:http://xiaoo.net/2010/07/15/1308/
注:所有人都可以转载。只允许钟金龙剽窃。
Baiduspider爬行痕迹之一
评论
6 views