2018年11月27日

scrapy抓取拉勾网职位信息(四)——对字段进行提取

摘要: 上一篇中已经分析了详情页的url规则,并且对items.py文件进行了编写,定义了我们需要提取的字段,本篇将具体的items字段提取出来 这里主要是涉及到选择器的一些用法,如果不是很熟,可以参考:scrapy选择器的使用 依旧是在lagou_c.py文件中编写代码 首先是导入LagouItem类,因 阅读全文

posted @ 2018-11-27 18:39 月见空青 阅读(382) 评论(0) 推荐(0)

scrapy抓取拉勾网职位信息(三)——爬虫rules内容编写

摘要: 在上篇中,分析了拉勾网需要跟进的页面url,本篇开始进行代码编写。 在编写代码前,需要对scrapy的数据流走向有一个大致的认识,如果不是很清楚的话建议先看下:scrapy数据流 本篇目标:让拉勾网爬虫能跑起来 分析:我们要通过拉勾网的起始url,通过设定一些规则,跟进我们需要的网页,提取出详情页的 阅读全文

posted @ 2018-11-27 17:20 月见空青 阅读(703) 评论(0) 推荐(1)

scrapy抓取拉勾网职位信息(二)——拉勾网页面分析

摘要: 网站结构分析: 四个大标签:首页、公司、校园、言职 我们最终是要得到详情页的信息,但是从首页的很多链接都能进入到一个详情页,我们需要对这些标签一个个分析,分析出哪些链接我们需要跟进。 首先是四个大标签,鼠标点击进入后可以发现首页、公司、校园,这三个包含有招聘职位 1、首先是对首页的分析 首页正文部分 阅读全文

posted @ 2018-11-27 15:10 月见空青 阅读(389) 评论(0) 推荐(0)

scrapy抓取拉勾网职位信息(一)——scrapy初识及lagou爬虫项目建立

摘要: 本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visual studio一劳永逸,如果报错缺少前置依赖,就先安装依赖) 本篇主要对scrapy生成爬虫项目做 阅读全文

posted @ 2018-11-27 13:02 月见空青 阅读(336) 评论(0) 推荐(0)

导航