随笔分类 - 数据采集

大规模爬虫流程总结

摘要：爬虫是一个比较容易上手的技术，也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫，完全就是另一回事，并不是1 n这么简单，还会衍生出许多别的问题。系统的大规模爬虫流程如图所示。先检查是否有API API是网站官方提供的数据接口，如果通过调用API采集数据，则相当于在网站允许的范围内阅读全文

posted @ 2017-04-20 18:26 依然很拉风阅读(2141) 评论(8) 推荐(1)

Python拉勾爬虫——以深圳地区数据分析师为例

摘要：拉勾因其结构化的数据比较多因此过去常常被爬，所以在其多次改版之下变得难爬。不过只要清楚它的原理，依然比较好爬。其机制主要就是AJAX异步加载JSON数据，所以至少在搜索页面里翻页url不会变化，而且数据也不会出现在源代码里。数据解析这是 "深圳地区的数据分析师页面" ，用Chrome检查打开。在阅读全文

posted @ 2017-03-07 20:25 依然很拉风阅读(1841) 评论(3) 推荐(0)