随笔分类 -  爬虫

爬虫实战(二) 51job移动端数据采集
摘要:在上一篇51job职位信息的爬取中,对岗位信息div下各式各样杂乱的标签,简单的Xpath效果不佳,加上string()函数后,也不尽如人意。因此这次我们跳过桌面web端,选择移动端进行爬取。 一、代码结构 按照下图所示的爬虫基本框架结构,我将此份代码分为四个模块——URL管理、HTML下载、HTM 阅读全文

posted @ 2018-12-16 22:29 Magic激流 阅读(1076) 评论(0) 推荐(1) 编辑

前程无忧爬虫源码及分析(一)
摘要:一、网页分析 1.1 关键字页面(url入口) 首先在前程无忧网站上检索关键词"大数据": 跳转到如下url: https://search.51job.com/list/000000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%2 阅读全文

posted @ 2018-11-16 22:01 Magic激流 阅读(4431) 评论(1) 推荐(1) 编辑

智联招聘爬虫源码分析(一)
摘要:最近一直在关注秋招,虽然还没轮到我,不过提前准备总是好的。近期听闻今年秋招形势严峻,为了更好的准备将来的实习、工作,我决定在招聘网站上爬取一些与数据有关的岗位信息,借以给自己将来的职业道路选择提供参考。 一、原理 通过Python的requests库,向网站服务器发送请求,服务器返回相关网页的源码, 阅读全文

posted @ 2018-11-09 21:17 Magic激流 阅读(8515) 评论(0) 推荐(2) 编辑

导航