爬取图片
思路:
1. 打开url地址,获取网页源代码
2. 提取网页中图片标签
3. 拼接图片地址
4. 保存图片到本地
1 ''' 2 Created on 2019年 3 4 @author: Root 5 ''' 6 import urllib3 7 import re 8 import os 9 import requests 10 11 # 忽略警告 12 urllib3.disable_warnings() 13 # 创建请求实例 14 http = urllib3.PoolManager() 15 # 创建字段(非必填) 16 url = 'http://xxx' 17 header = { 18 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36' 19 } 20 # 创建请求 21 r = http.request('GET', url, header) 22 # 获取网页代码 23 data = r.data.decode() 24 # 提取网页图片 25 data = re.findall('<img src=?.*\.jpg',data) 26 # print (data) 27 path = 'E:/work/img1/' 28 29 for i in range(len(data)): 30 # 拼接图片地址 31 img_url = "http:/"+data[i][11:] 32 # 判断文件夹是否存在 33 if not os.path.exists(path): 34 print ('路径不存在,正创建...') 35 os.mkdir(path) 36 else: 37 # 获取图片内容 38 img = requests.get(img_url,header).content 39 # 创建文件 40 f = open(path+str(i)+'.jpg','wb+') 41 # 保存到本地 42 f.write(img) 43 # 关闭资源 44 f.close()
情如风雪无常,却是一动即伤