2015 年 10月 12 日随笔档案 - 时间朋友

2015年10月12日

2015第42周一爬虫与反爬虫

摘要：一般爬虫要考虑的问题之前尝试了request和cheerio实现的简单抓取数据用例，真的很初级，真正的爬虫且不说Google、百度等商用爬虫，即便是一个开源爬虫也要考虑很多东西，比如nodejs的开源爬虫neocrawler: 抓取网页并进行结构化解析，提取关键字后索引入库，防止网页重复抓取；抓取利用JS产生内容的网页；重试容错机制，失败后详细记录；预设cookie，解决登陆后才能抓取内... 阅读全文

posted @ 2015-10-12 19:51 时间朋友阅读(740) 评论(0) 推荐(0)

时间的朋友

2015第42周一爬虫与反爬虫

导航