爬虫项目学习大纲

前言

略略略,实时更新。
找了挺久的可爬取数据,最终就决定爬取就职信息了

分析目标

整体分为两块,一块是计算机技术相关,一块是化工相关

  • 各地区需求
  • 学历需求
  • 工作经验需求
  • 职位描述关键字
  • 语言需求
  • 行业薪酬
  • 地区薪酬

制作流程

爬取数据

  1. 封装请求数据为req
  • 网址
  • 头部信息
  • cookies
  • 请求方式
  1. 发起请求
  • 使用urlopen函数使用请求req获取响应文件
  • 使用read函数读取并解码保存
  1. 解析网页查咋所需数据(花费了大量时间)
    使用BeautifulSoup解析保存下来的html文件生成树文件,然后就是重头戏了,就是查找内容了
  • 使用正则表达式,包括指定属性等
  • 使用css选择器,包括层序查找
  1. 暂存数据
    将一条记录里面的所有条目以键值对的方式保存在一个字典中,然后再把该字典作为一个元素保存在列表中

数据保存(sql语句)

  1. 初始化数据库
  2. 将字典中的数据保存到数据库中

分析数据

需求:

  • 分词并统计字频
  • 查找并返回结果
  • 统计包含字段的数目
  • 薪酬转换

搭建框架

  1. 前端页面
  2. 表单制作

制作图表

  1. Echarts

相关知识

Python基本语法部分

urllib库

为什么用urlopen获取的网页还需要通过bs转码才能使用?

re正则表达式

BeautifulSoup的使用

.string可以返回当前节点中的内容,但是当前节点包含子节点时,.string不知道要获取哪一个节点中的内容,故返回空
.text(或者.get_text())可以返回当前节点所包含的所有文本内容,包括当前节点的子孙节点

html和css基础知识

了解了html的基础知识和框加,为分析爬取网站做准备。
css准备用的时候再学。

http协议

请求头常见参数

常见响应状态码

json

使用Flask进行路由解析和网站模板渲染

进阶-分布式和多线程

sql语句

更新日志

————20200428————
大纲的创立。
————20200429————
html基础知识的学习

posted @ 2020-04-28 22:46  游芒。  阅读(320)  评论(0)    收藏  举报