爬虫项目学习大纲
前言
略略略,实时更新。
找了挺久的可爬取数据,最终就决定爬取就职信息了
分析目标
整体分为两块,一块是计算机技术相关,一块是化工相关
- 各地区需求
- 学历需求
- 工作经验需求
- 职位描述关键字
- 语言需求
- 行业薪酬
- 地区薪酬
制作流程
爬取数据
- 封装请求数据为req
- 网址
- 头部信息
- cookies
- 请求方式
- 发起请求
- 使用urlopen函数使用请求req获取响应文件
- 使用read函数读取并解码保存
- 解析网页查咋所需数据(花费了大量时间)
使用BeautifulSoup解析保存下来的html文件生成树文件,然后就是重头戏了,就是查找内容了
- 使用正则表达式,包括指定属性等
- 使用css选择器,包括层序查找
- 暂存数据
将一条记录里面的所有条目以键值对的方式保存在一个字典中,然后再把该字典作为一个元素保存在列表中
数据保存(sql语句)
- 初始化数据库
- 将字典中的数据保存到数据库中
分析数据
需求:
- 分词并统计字频
- 查找并返回结果
- 统计包含字段的数目
- 薪酬转换
搭建框架
- 前端页面
- 表单制作
制作图表
- Echarts
相关知识
Python基本语法部分
urllib库
为什么用urlopen获取的网页还需要通过bs转码才能使用?
re正则表达式
BeautifulSoup的使用
.string可以返回当前节点中的内容,但是当前节点包含子节点时,.string不知道要获取哪一个节点中的内容,故返回空
.text(或者.get_text())可以返回当前节点所包含的所有文本内容,包括当前节点的子孙节点
html和css基础知识
了解了html的基础知识和框加,为分析爬取网站做准备。
css准备用的时候再学。
http协议
请求头常见参数
常见响应状态码
json
使用Flask进行路由解析和网站模板渲染
进阶-分布式和多线程
sql语句
更新日志
————20200428————
大纲的创立。
————20200429————
html基础知识的学习