爬虫Day03

数据解析

聚焦爬虫

  • 爬取页面中指定的页面内容

    编码流程

    1. 指定url
    2. 发起请求
    3. 获取响应数据
    4. 数据解析
    5. 持久化存储

数据解析分类

  1. 正则
  2. bs4
  3. xpath

数据解析原理概述

  • 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储
  1. 进行指定标签的定位
  2. 标签或者标签对应的属性中存储的数据进行提取(解析)

通用原理

  • 标签定位
  • 取文本或属性
import requests
if __name__ == '__main__':
    url = 'http://up.17989.com/picture/2015/04/e505a625cc1bd0e48ecba660496b6e77.jpg'
    img_data = requests.get(url=url).content
    with open('./qiutu.jpg','wb') as fp:
        fp.write(img_data)
    print('success')
posted @ 2020-10-31 22:57  JWEY  阅读(67)  评论(0)    收藏  举报