2015年10月12日

2015第42周一爬虫与反爬虫

摘要: 一般爬虫要考虑的问题 之前尝试了request和cheerio实现的简单抓取数据用例,真的很初级,真正的爬虫且不说Google、百度等商用爬虫,即便是一个开源爬虫也要考虑很多东西,比如nodejs的开源爬虫neocrawler: 抓取网页并进行结构化解析,提取关键字后索引入库,防止网页重复抓取; 抓取利用JS产生内容的网页; 重试容错机制,失败后详细记录; 预设cookie,解决登陆后才能抓取内... 阅读全文

posted @ 2015-10-12 19:51 时间朋友 阅读(739) 评论(0) 推荐(0)

导航