python爬虫之数据处理与提取

一、非结构化数据的处理

文本、电话号码、邮箱地址

  • 正则表达式

HTML文件

  • 正则表达式
  • XPath
  • CSS选择器

二、结构化数据的处理

JSON文件

  • JSON Path
  • 转化成Python类型进行操作

XML文件

  • 转换成python类型(xmltodict)
  • XPath
  • CSS选择器
  • 正则表达式

 

posted @ 2020-10-06 14:24  过去围观  阅读(420)  评论(0)    收藏  举报