2018年11月28日

scrapy抓取拉勾网职位信息(七)——数据存储(MongoDB,Mysql,本地CSV)

摘要: 上一篇完成了随机UA和随机代理的设置,让爬虫能更稳定的运行,本篇将爬取好的数据进行存储,包括本地文件,关系型数据库(以Mysql为例),非关系型数据库(以MongoDB为例)。 实际上我们在编写爬虫rules规则的时候,做了很多的限定,而且没有对翻页进行处理,所以最终提取的信息数量比较少,经我的测试 阅读全文

posted @ 2018-11-28 22:08 月见空青 阅读(465) 评论(0) 推荐(0)

scrapy抓取拉勾网职位信息(六)——反爬应对(随机UA,随机代理)

摘要: 上篇已经对数据进行了清洗,本篇对反爬虫做一些应对措施,主要包括随机UserAgent、随机代理。 一、随机UA 分析:构建随机UA可以采用以下两种方法 我们可以选择很多UserAgent,形成一个列表,使用的时候通过middleware获取到settings.py文件中的配置,然后进行随机选择 使用 阅读全文

posted @ 2018-11-28 17:02 月见空青 阅读(754) 评论(0) 推荐(0)

scrapy抓取拉勾网职位信息(五)——代码优化

摘要: 上一篇我们已经让代码跑起来,各个字段也能在控制台输出,但是以item类字典的形式写的代码过于冗长,且有些字段出现的结果不统一,比如发布日期。 而且后续要把数据存到数据库,目前的字段基本都是string类型,会导致占用空间较多,查询时速度会较慢,所以本篇先对目前已写好的代码进行适当优化。 本篇目的:使 阅读全文

posted @ 2018-11-28 16:48 月见空青 阅读(557) 评论(2) 推荐(0)

导航