随笔分类 -  数据采集

大规模爬虫流程总结
摘要:爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1 n这么简单,还会衍生出许多别的问题。 系统的大规模爬虫流程如图所示。 先检查是否有API API是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内 阅读全文
posted @ 2017-04-20 18:26 依然很拉风 阅读(2141) 评论(8) 推荐(1)
Python拉勾爬虫——以深圳地区数据分析师为例
摘要:拉勾因其结构化的数据比较多因此过去常常被爬,所以在其多次改版之下变得难爬。不过只要清楚它的原理,依然比较好爬。其机制主要就是AJAX异步加载JSON数据,所以至少在搜索页面里翻页url不会变化,而且数据也不会出现在源代码里。 数据解析 这是 "深圳地区的数据分析师页面" ,用Chrome检查打开。在 阅读全文
posted @ 2017-03-07 20:25 依然很拉风 阅读(1841) 评论(3) 推荐(0)