编写Robot应注意的事情

原文:http://www.robotstxt.org/wc/guidelines.html

使用Robot前应多考虑一下,是否有必要自己再写一个Robot,因为现在已经有很多的Search Engine可以使用.
访问一个网站时,要注意访问深度,不要访问得太深(当然,分析网站结构的机器人就不同了).
HTTP协议中支持一个"User-agent"字段,可以将其注明成你的Robot的信息,如"YuanlangBot",以便和其他的浏览者区别开.
HTTP有一个"From"字段,可以将其注明为你的EMail地址,方便别人在出问题时与你联系.
将你的Robot注册到Robot组织,以便别人能找到Robot的详细信息(不过在国内好像还没有这样的组织).
如果Robot的目标只是某一个或某几个网站,最好和这些网站的网管联系,通知对方有关Robot访问的情况.
尽量避免在网络高峰期访问网站.
要在本机上做测试,不要在网络上做测试.
不要过于频繁的访问同一个网站.访问的时间间隔尽量长(不然的话,站长要拿刀砍人了).
只访问自己需要的资源,不去访问无意义的资源.如只能解析文本的话,见到诸如".mp3",".ps", ".zip", ".Z", ".gif"等链接就不要下载了.
不要重复访问同一个页面.比如像(<A HREF="#abstract">) 的内部链接就不要访问了.访问过的页面也不要再访问了.
做好log文档.让你的Robot处于随时监控之下.经常分析有关Robot的统计数据:访问过哪些网站,成功和失败的次数是多少.
做好控制平台,使你的Robot能很好的控制住,尽量实现:启动,停止,挂起,忽略某个网站等功能.
要讲文明,要讲公德,呵呵,不要让人觉得你很烦.
最后再补充一点:在访问网站前一定别忘了要先读Robots.txt文件.

posted on 2004-10-10 16:31 信息时代的生存哲学阅读(769) 评论(0) 收藏举报

刷新页面返回顶部

信息时代的生存哲学

公告

编写Robot应注意的事情