编写Robot应注意的事情
- 使用Robot前应多考虑一下,是否有必要自己再写一个Robot,因为现在已经有很多的Search Engine可以使用.
- 访问一个网站时,要注意访问深度,不要访问得太深(当然,分析网站结构的机器人就不同了).
- HTTP协议中支持一个"User-agent"字段,可以将其注明成你的Robot的信息,如"YuanlangBot",以便和其他的浏览者区别开.
- HTTP有一个"From"字段,可以将其注明为你的EMail地址,方便别人在出问题时与你联系.
- 将你的Robot注册到Robot组织,以便别人能找到Robot的详细信息(不过在国内好像还没有这样的组织).
- 如果Robot的目标只是某一个或某几个网站,最好和这些网站的网管联系,通知对方有关Robot访问的情况.
- 尽量避免在网络高峰期访问网站.
- 要在本机上做测试,不要在网络上做测试.
- 不要过于频繁的访问同一个网站.访问的时间间隔尽量长(不然的话,站长要拿刀砍人了).
- 只访问自己需要的资源,不去访问无意义的资源.如只能解析文本的话,见到诸如".mp3",".ps", ".zip", ".Z", ".gif"等链接就不要下载了.
- 不要重复访问同一个页面.比如像(<A HREF="#abstract">) 的内部链接就不要访问了.访问过的页面也不要再访问了.
- 做好log文档.让你的Robot处于随时监控之下.经常分析有关Robot的统计数据:访问过哪些网站,成功和失败的次数是多少.
- 做好控制平台,使你的Robot能很好的控制住,尽量实现:启动,停止,挂起,忽略某个网站等功能.
- 要讲文明,要讲公德,呵呵,不要让人觉得你很烦.
- 最后再补充一点:在访问网站前一定别忘了要先读Robots.txt文件.

浙公网安备 33010602011771号