|
BaiduSpider的违规抓取,可以追述到2002年左右,当时一个自称来自百度的技术人ChenJK,关于BaiduSpider,在WMW和受害者进行过交流,
并且说过已经解决了导致BaiduSpider违规的BUG,然而改版为BaiduSpider+后,这个Bug似乎并没有解决,抱怨这家伙不守
robots规则,太耗服务器资源,浪费流量的并未减少.可惜的是,百度的人员再没有出来解释过BaiduSpider的行为,这种有益的交流,百度显然应该多做一点.
WMW的Boston Pubcon 2006大会上:Amanda deliberately typed “Disalow”
in the robots.txt tool to show that 1) Google will still treat
that correctly and 2) the checker tool will warn you about the
typo.
人家的一个测试,把robots.txt里的禁止蜘蛛抓取内容命令:Disallow,故意拼写成 "disalow",看看Googlebot对Robots.txt里出现拼写错误是如何处理的,显然GoogleBot正确地分析到这仅仅是一个拼写错误,并按此执行了.
回过头来看看自家人baiduspider+,Feedsky的家伙很是怕它的"袭击",和国外的一些站长一样,因为蜘蛛的抓取行为,会造成服务器变得缓慢,甚至无法响应普通用户的浏览,实际效应有如DDOS攻击.
因而有人用robots.txt去禁止BaiduSpider+的抓取行为,然而令人失望的是:"Baiduspider
- not checking robots.txt & how to block?".
在国内,很少有站长敢忽视百度的搜索流量,因为百度更懂中文,而老外的站,只要不提供中文的,想从百度获得流量,就有点不现实了,谁会用百度搜索英文内容呐?
因此他们敢禁止baidu的spider. 最终一部分人采用了服务器端的技术把Baiduspider+挡在外边.
写与百度有关的东西之前,俺一般都会去Search一下,防止自己说得太离谱,开罪BaiduSpider+,人家不来了,俺岂不是得不尝失.
BaiduSpider的违规抓取,可以追述到2002年左右,当时一个自称来自百度的技术人ChenJK,关于BaiduSpider,在WMW和受害者进行过交流,并且说过已经解决了导致BaiduSpider违规的BUG,然而改版为BaiduSpider+后,这个Bug似乎并没有解决,抱怨这家伙不守robots规则,太耗服务器资源,浪费流量的并未减少.可惜的是,百度的人员再没有出来解释过BaiduSpider的行为,这种有益的交流,百度显然应该多做一点.看过的BaiduSpider+老家的帮助页面,同样我也知道,的确有人冒充百度的蜘蛛去做referral
spam ,或者偷站,但是这些人造成的服务器问题,绝不可能和百度庞然大物相提并论
|
注:搜索引擎使用的蜘蛛(Spider),被俺的几个朋友私下里称为:"猪",因为和蜘蛛谐音,还有猪好象比spider更宠物化一点.
小吴在开发BT种子搜索时,时不时地在蜘蛛方面碰到小故障,三天二头说:要重放猪出去拱东西了,后来他成功了,俺们都为他挺高兴的.
垃圾SEO日子可能会不大好过看到新闻《工业和信息化部成立12321垃圾信息举报中心》,追到12321.cn进去看看,内容还真不老少:
互联里没有写明群发BLOG,群发留言本,群发商务网站,群发论坛这样的群发行为是“罪”,不过,这些行为是与其它的“罪行”是交叉的。
虽然工信部的前身,信产部,还有其前前身等等,总是喜欢今天发个文,明天立个法,真正棒子落到实处的,真是不多。比如备案这事,就是民不举、官不究。所以,我并不能给垃圾SEO的前景下准确判断,因为听其言,而不观其行,就言“诡道”已了,这样太不靠谱了,所以我说可能垃圾SEO未来的日子“可能”会有点不好过。
互联网不良与垃圾信息
1.垃圾邮件
2.恶意软件
3.网站
4.博客(blog)
5.论坛(bbs)
6.搜索引擎
7.即时消息
8.各类下载软件
9.其他
移动电话网不良与垃圾信息
1.垃圾短信
2.骚扰电话
3.wap
4.彩信
5.IVR
6.彩铃
7.其他
[seovista.com] |