其实从去年年底起,服务器就总是处于断断续续的状态之中,一直很纳闷,因为好生活只是一个小站,只是一个自己和朋友们的私家花园,怎么会经常出现数据库连接池占满的错误呢?
近几日,查看了访问记录,发现了大量的 124.115.0.* 和 124.115.4.* 段的不间断访问记录,初始以为是黑客的攻击和扫描,再然后发现连续几天都是如此,分析这两个IP地址段,都位于陕西的机房,后来从google得知这两个IP地址段是腾讯的soso网络蜘蛛所用。
网络蜘蛛本来也不要紧,毕竟我们现在能够使用google和baidu,主要就是因为网络蜘蛛抓取了网络资源,然后进行了索引。但是如果是低劣的抓取技术,外加不中断连接的长连接,这样的情况下,网络蜘蛛对网站资源的抓取就好象是 DOS 或者 SYN Flood 的网络攻击了。
这里,不需要搜索引擎的打扰,所以我在网站的根目录下编写了robots.txt 文件,文件内容如下:
User-agent: *
Disallow: /
上传到网站跟目录下, 这世界终于清静了,最新的访问ip名单中已经没有了那个疯狂而又变态的124.115.0.* 地址段。
也许将来会加入允许google的抓取,但是我绝对不敢再允许Sosospider的抓取。
===================================================
事实证明我错了, 腾讯的 soso 完全不遵守通行的互联网 robots.txt的规定,在晚上又开始了疯狂的抓取,迫于无奈之下,我只好先改成必须登录才能进入网站,可怜我的私家花园,被QQ这个卑鄙无耻的公司搞得几无存身之地。
只要在网上搜索124.115. ,骂声一片,唉,真是很强很无耻的公司!