爬取图片

思路:

1.  打开url地址,获取网页源代码

2. 提取网页中图片标签

3. 拼接图片地址

4. 保存图片到本地

 1 '''
 2 Created on 2019年
 3 
 4 @author: Root
 5 '''
 6 import urllib3
 7 import re
 8 import os
 9 import requests
10 
11 # 忽略警告
12 urllib3.disable_warnings()
13 # 创建请求实例
14 http = urllib3.PoolManager()
15 # 创建字段(非必填)
16 url = 'http://xxx'
17 header = {
18         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'
19     }
20 # 创建请求
21 r = http.request('GET', url, header)
22 # 获取网页代码
23 data = r.data.decode()
24 # 提取网页图片
25 data = re.findall('<img src=?.*\.jpg',data)
26 # print (data)
27 path = 'E:/work/img1/'
28 
29 for i in range(len(data)):
30     # 拼接图片地址
31     img_url = "http:/"+data[i][11:]
32     # 判断文件夹是否存在
33     if not os.path.exists(path):
34         print ('路径不存在,正创建...')
35         os.mkdir(path)
36     else:
37         # 获取图片内容
38         img = requests.get(img_url,header).content
39         # 创建文件
40         f = open(path+str(i)+'.jpg','wb+')
41         # 保存到本地
42         f.write(img)
43         # 关闭资源
44         f.close()
View Code

 

posted @ 2019-07-19 19:40  一叶知秋WDZY  阅读(117)  评论(0)    收藏  举报