05 2016 档案

摘要:在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。 本文 阅读全文
posted @ 2016-05-27 10:17 heart.. 阅读(195724) 评论(25) 推荐(24)
摘要:【 转 】http://www.cnblogs.com/FengYan/archive/2012/07/31/2614335.html 由于要准备测试数据,不得不大量爬取某个网站的内容。为了防止被封,特意将爬虫设计为单线程同步的爬虫。结果在爬了大约3万个页面的时候,对方发回Access Denied 阅读全文
posted @ 2016-05-19 15:45 heart.. 阅读(6820) 评论(0) 推荐(0)
摘要:1,如果只是想简单的写个定时任务,比如10分钟跑一次,那么ScheduledExecutorService是比较方便的,下面举个简单的例子 2,如果想早上8点到晚上8点采集(期间还是10分钟跑一次),别的时间不采集,那就要在CrawlerTest()里面run()方法做判断 3,如果想指定就8点,1 阅读全文
posted @ 2016-05-18 12:02 heart.. 阅读(18475) 评论(0) 推荐(0)
摘要:HttpClient client = new HttpClient(); GetMethod get=new GetMethod("http://www.baidu.com"); try { client.executeMethod(get); } catch (HttpException e) { // TODO Auto-ge... 阅读全文
posted @ 2016-05-17 18:02 heart.. 阅读(4182) 评论(0) 推荐(0)