摘要: WebSphinx,Jobo等爬虫的Http分析 看了一些开源的网络爬虫代码,把注意都集中在一些细节的设计模式上,感觉对整个系统的整体把握不够,于是打算花点时间好好分析一下各个爬虫对Http的处理。第一个问题就是如果去获取远程的网页,在Java里面可以采用下面的简单方式:1) 自己写代码,通过URL获取,代码如下:[代码]2. 利用HttpClient包进行相应的处理:(与上面的代码相比,Http... 阅读全文
posted @ 2009-06-30 21:59 chp008 阅读(2015) 评论(0) 推荐(0)