爬虫实战爬取糗图百科图片
import requests
import re
import os
import time
if name=="main":
#创建一个文件夹保存爬取图片
if not os.path.exists('./qiutulibs/'):
os.mkdir('./qiutulibs')
#如何爬取图片数据
headers = { #UA伪装
'User-Agent': "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"
}
#设定通用的URL模板
url='https://www.qiushibaike.com/imgrank/page/%d/'
#content返回的是二进制形式的图片数据 text(字符串) content(二进制)json(对象)
for page_num in range(1,15):
new_url=format(url%page_num)
page_text=requests.get(url=new_url).text
#聚焦爬虫开始对图片进行解析/提取
ex = '
.?<img src="(.?)" alt.*?
'img_src_list=re.findall(ex,page_text,re.S)
#print(img_src_list)
for src in img_src_list:
#拼接成一个完整的图片URL地址
src="https:"+src
#请求到图片的二进制数据
img_data=requests.get(url=src,headers=headers).content
#生成图片名称
img_name=src.split('/')[-1]
img_path='./qiutulibs/'+img_name
with open(img_path,'wb') as fp:
fp.write(img_data)
print(img_name+'下载成功!!!')
time.sleep(1)

浙公网安备 33010602011771号