python-爬虫(2)—图片-伪属性与懒加载

懒加载:你打开一个网页,有可能在页面上只有个图片图标而没有图片,或者preview时你看不到图片。
              这是为什么呢?这是网站对图片的一种处理,只有当图片在可视化区域的时候才被加载进来。

伪属性:一般图片在html中是这样的。

不显示出来的时候用src2,而不是src,这就是伪属性。一般当页面进入到可视化区域的时候,Js就会处理这个html,把它变成SRC,成为可显示的。
理解了这两点,实现抓图片就easy了。

import requests
import re


url='https://sc.chinaz.com/tupian/' #图片网址
headers={
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}
page_text=requests.get(url,headers=headers).text
print(page_text)
#正则
ex='<a.*?<img src2="(.*?)" alt.*?</a>'
img_src_list=re.findall(ex,page_text,re.S)#re.S处理html的空格
print(img_src_list)

 

posted @ 2020-04-18 11:56  jasmineTang  阅读(99)  评论(0)    收藏  举报