爬虫项目学习大纲

前言

略略略，实时更新。
找了挺久的可爬取数据，最终就决定爬取就职信息了

分析目标

整体分为两块，一块是计算机技术相关，一块是化工相关

各地区需求
学历需求
工作经验需求
职位描述关键字
语言需求
行业薪酬
地区薪酬

制作流程

爬取数据

封装请求数据为req

网址
头部信息
cookies
请求方式

发起请求

使用urlopen函数使用请求req获取响应文件
使用read函数读取并解码保存

解析网页查咋所需数据（花费了大量时间）
使用BeautifulSoup解析保存下来的html文件生成树文件，然后就是重头戏了，就是查找内容了

使用正则表达式，包括指定属性等
使用css选择器，包括层序查找

暂存数据
将一条记录里面的所有条目以键值对的方式保存在一个字典中，然后再把该字典作为一个元素保存在列表中

数据保存（sql语句）

初始化数据库
将字典中的数据保存到数据库中

分析数据

需求：

分词并统计字频
查找并返回结果
统计包含字段的数目
薪酬转换

搭建框架

前端页面
表单制作

制作图表

Echarts

更新日志

————20200428————
大纲的创立。
————20200429————
html基础知识的学习

posted @ 2020-04-28 22:46 游芒。阅读(320) 评论(0) 收藏举报

刷新页面返回顶部

游芒。

爬虫项目学习大纲

前言

分析目标

制作流程

爬取数据

数据保存（sql语句）

分析数据

搭建框架

制作图表

相关知识

Python基本语法部分

urllib库

re正则表达式

BeautifulSoup的使用

html和css基础知识

http协议

请求头常见参数

常见响应状态码

json

使用Flask进行路由解析和网站模板渲染

进阶-分布式和多线程

sql语句

更新日志

公告