webreport

博客园 首页 新随笔 联系 订阅 管理

2009年9月10日 #

摘要: 任务描述: 某图书网站按条件查询得出一页20条记录,每条记录有书目的简要信息和url链接到书的详细信息。 需要抓取网站图书的详细信息,保存到本地数据库中。 任务分析: 用httpclient模拟执行url将网站的信息取回,再用jericho包,分析页面元素,将需要的信息取出,保存到数据库中。 因为数据量比较大,还是采用多线程的方式来执行抓取详细页面,分析获得数据。 阅读全文
posted @ 2009-09-10 10:41 web报表 阅读(4180) 评论(8) 推荐(1) 编辑