【爬虫】爬取网站图片的url学习记录,xpath用法
这次是想爬取一个壁纸网站里面图片的url,这里使用了lxml库,先上脚本
import requests
from lxml import etree
url="https://pic.netbian.com/4kdongman/"
domain="https://pic.netbian.com/"
data=requests.get(url)
#print(data.text)
et=etree.HTML(data.text) 加载html数据
res=et.xpath("//div[@class='slist']/ul/li/a/@href")
#print(res)
for i in res:
print(domain+i) 爬下来的路径是没有域名,加上域名
测试结果如下:
这里主要是用xpath进行匹配,以下是xpath用法的一些例子

这行代码关键还是这个res=et.xpath("//div[@class='slist']/ul/li/a/@href")


浙公网安备 33010602011771号