Python爬虫教程-18-页面解析和数据提取

本篇针对的数据是已经存在在页面上的数据，不包括动态生成的数据，今天是对HTML中提取对我们有用的数据，去除无用的数据

Python爬虫教程-18-页面解析和数据提取

结构化数据：先有的结构，再谈数据
- json数据
  - 1.处理此类数据，通常使用JSON Path
  - 2.转换成python类型的数据，再进行操作（json类）
- XML文件
  - 转换成python类型（xmltodict）
  - XPath
  - CSS选择器
  - 正则表达式
非结构化数据：先有的数据，再谈结构
- 文本
- 电话号码
- 邮箱地址
  - 处理此类数据，通常使用正则表达式
- HTML代码
  - 正则表达式
  - XPath
  - CSS选择器

具体内容文章链接

正则表达式点我链接
- match：从开始位置开始查找，一次匹配，即1次匹配成功则退出
- search：从任何位置开始查找，一次匹配
- findall：全部匹配，返回列表
- finditer：全部匹配，返回迭代器
- split：分割字符串，返回列表
- sub：替换
xml 点我链接
x-path 点我链接

更多文章链接：Python 爬虫随笔

- 本笔记不允许任何个人和组织转载

posted @ 2018-09-06 20:52 xpwi 阅读(893) 评论(0) 收藏举报

刷新页面返回顶部