2018 年 11月 28 日随笔档案 - 月见空青

scrapy抓取拉勾网职位信息（七）——数据存储（MongoDB，Mysql，本地CSV）

摘要：上一篇完成了随机UA和随机代理的设置，让爬虫能更稳定的运行，本篇将爬取好的数据进行存储，包括本地文件，关系型数据库（以Mysql为例），非关系型数据库（以MongoDB为例）。实际上我们在编写爬虫rules规则的时候，做了很多的限定，而且没有对翻页进行处理，所以最终提取的信息数量比较少，经我的测试阅读全文

posted @ 2018-11-28 22:08 月见空青阅读(465) 评论(0) 推荐(0)

scrapy抓取拉勾网职位信息（六）——反爬应对（随机UA，随机代理）

摘要：上篇已经对数据进行了清洗，本篇对反爬虫做一些应对措施，主要包括随机UserAgent、随机代理。一、随机UA 分析：构建随机UA可以采用以下两种方法我们可以选择很多UserAgent，形成一个列表，使用的时候通过middleware获取到settings.py文件中的配置，然后进行随机选择使用阅读全文

posted @ 2018-11-28 17:02 月见空青阅读(754) 评论(0) 推荐(0)

scrapy抓取拉勾网职位信息（五）——代码优化

摘要：上一篇我们已经让代码跑起来，各个字段也能在控制台输出，但是以item类字典的形式写的代码过于冗长，且有些字段出现的结果不统一，比如发布日期。而且后续要把数据存到数据库，目前的字段基本都是string类型，会导致占用空间较多，查询时速度会较慢，所以本篇先对目前已写好的代码进行适当优化。本篇目的：使阅读全文

posted @ 2018-11-28 16:48 月见空青阅读(557) 评论(2) 推荐(0)

月见空青

scrapy抓取拉勾网职位信息（七）——数据存储（MongoDB，Mysql，本地CSV）

scrapy抓取拉勾网职位信息（六）——反爬应对（随机UA，随机代理）

scrapy抓取拉勾网职位信息（五）——代码优化

导航

公告