摘要:
转载----http://daoexception.javaeye.com/blog/539473众所周知,网络爬虫的最基本原理就是模拟HTTP协议向指定网站发送请求,从而从服务器端返回的网页源代码中抽取具有实用价值的信息(也可能下一次 任务队列的地址)。这中间涉及到很多算法,根据网站不同域名,网站网页更新速度,网站结构深度,设定爬虫不同的爬取策略。爬虫可以从一些简单的网站上直接 获取网页源代码,... 阅读全文
posted @ 2010-05-20 17:00
chp008
阅读(1254)
评论(0)
推荐(1)


浙公网安备 33010602011771号