摘要:
任务描述:
某图书网站按条件查询得出一页20条记录,每条记录有书目的简要信息和url链接到书的详细信息。
需要抓取网站图书的详细信息,保存到本地数据库中。
任务分析:
用httpclient模拟执行url将网站的信息取回,再用jericho包,分析页面元素,将需要的信息取出,保存到数据库中。
因为数据量比较大,还是采用多线程的方式来执行抓取详细页面,分析获得数据。
阅读全文
posted @ 2009-09-10 10:41
web报表
阅读(4198)
评论(8)
推荐(1)
浙公网安备 33010602011771号