Tag Archives: spider 蜘蛛 SEO 百度 Baidu-Transcoder

BaiduSpider 百度蜘蛛 工作策略观察

因为工作关系,最近关注了baiduspider ,发现了一些很有意思的事情

百度蜘蛛,在日志里面 http://www.baidu.com/search/spider.htm

1  会预先抓取一个起始页面,比如index.html ,然后转交给另外一个URL提取的服务器提取URL,但是我发现,他对URL的提取是不去除重复的,比如我一个页面里面有4个指向a.html链接,那么他会抓取4次,这样等于做了很多无用功。

2   蜘蛛(Spider)  会抓取JS文件内容并加以分析,但是这个只限于他怀疑作弊的站点,否则那开销也忒大了

3  神秘的Baidu-Transcoder/1.0.5.9,   这个冬冬,以前我认为是防止作弊用的,后来经过PPLOVE网友的提醒,说是手机浏览的代码转换器,后来我在日志里面检查了一下,发现了(Baidu-Transcoder/1.0.5.9  http://gate.baidu.com)顺着链接过去,看来是的。

4  首页的抓取与 网站内页的抓取 ,是由不同的服务器完成的