主题蜘蛛需要考虑的事项:
5.1 种子库更新策略
为了蜘蛛所用到的种子库不断有新的种子加入,使之不断可以抓取到新的内容,考虑采用以下三种方式:
①种子网站的友情链接
②在下载的网页库中,统计主机名相同的最多的网址作为种子网址
③用户的检索词,如果没有相关内容,则作为关键词抓取相关内容
5.2 参数控制(xml文件保存参数)
主题蜘蛛的参数是比较多的,包括对蜘蛛的控制参数;针对下载的网页的控制参数;以及对主题蜘蛛整个程序的控制,具体包括:
1. 线程数
2. 各线程等待时间
3. 超时时间
4. 数据库连接参数
5. 相关度参数
6. 抓取深度
7. 网络出现状况时的等待重试时间间隔
8. 下载的文件类型
9. 只从开始的域名下载
10. 只从开始的URL下载
11. 只下载静态化的URL(即包含"?"的URL不下载)
12. 下载类型ContentType
13. 忽略的URL关键字,包含这些关键字的URL不会被加入到下载队列
14. 下载的子页面个数
5.3 蜘蛛程序要判断的因素
5.3.1判断网络是否通畅
处理办法:停止所有线程,等待指定的时间间隔后重试。
5.3.2判断内存是否够用
处理办法:减少线程数。
5.3.3判断硬盘空间是否够用
处理办法:提示用户,待用户解决后继续。
5.3.4判断相关度
判断场合:
1:判断新链接是否要插入到种子队列中;
2:判断网页的内容是否相关,相关入库,否则不保存。
作者:江南的俊马 http://www.21zhu.com 俺要住订房网
浙公网安备 33010602011771号