2016 年 5月随笔档案 - heart..

为何大量网站不能抓取?爬虫突破封禁的6种常见方法

摘要：在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用 HTML 表单或其他网页文件），然后对数据进行解析，提取需要的信息。本文阅读全文

posted @ 2016-05-27 10:17 heart.. 阅读(195724) 评论(25) 推荐(24)

反爬虫四个基本策略

摘要：【转】http://www.cnblogs.com/FengYan/archive/2012/07/31/2614335.html 由于要准备测试数据，不得不大量爬取某个网站的内容。为了防止被封，特意将爬虫设计为单线程同步的爬虫。结果在爬了大约3万个页面的时候，对方发回Access Denied 阅读全文

posted @ 2016-05-19 15:45 heart.. 阅读(6820) 评论(0) 推荐(0)

ScheduledExecutorService 定时器用法

摘要：1，如果只是想简单的写个定时任务，比如10分钟跑一次，那么ScheduledExecutorService是比较方便的，下面举个简单的例子 2，如果想早上8点到晚上8点采集（期间还是10分钟跑一次），别的时间不采集，那就要在CrawlerTest()里面run()方法做判断 3，如果想指定就8点，1 阅读全文

posted @ 2016-05-18 12:02 heart.. 阅读(18475) 评论(0) 推荐(0)

java HttpClient 获取页面Cookie信息

摘要：HttpClient client = new HttpClient(); GetMethod get=new GetMethod("http://www.baidu.com"); try { client.executeMethod(get); } catch (HttpException e) { // TODO Auto-ge... 阅读全文

posted @ 2016-05-17 18:02 heart.. 阅读(4182) 评论(0) 推荐(0)

heart..

05 2016 档案

公告