'''
url
http://book.dangdang.com/
请求方式
GET
请求头
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36
请求参数
'''
#1.导入模块
import requests
from lxml import html
etree=html.etree
#2.发送请求
response=requests.get(
url="http://book.dangdang.com/",
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
}
)
#处理响应
eroot=etree.HTML(response.text)
# print(response.text)
#使用Xpath爬取当当数据
#//li/a/@title 广泛书名
#//li/a/img/@src 图片
#推荐书籍的列表
#//div[@id="book_reco"]/ul/li/p/a/text() 规范书名
#//div[@id="book_reco"]/ul/li/p[@class="price"] 规范价格
#//div[@id="book_reco"]/ul/li/a/img/@src 书籍图片
#//div[@class="over"]/ul/li/ul/li/a/@title 书名
#//div[@class="over"]/ul/li/ul/li/a/img/@src 照片
#//div[@class="over"]/ul/li/ul/li/p[@class="price"]/span[@class="rob"]价格
div_list=eroot.xpath('//div[@class="over"]/ul/li/ul/li')
for li in div_list:
item={}
#书名
item["name"]=li.xpath('./a/@title')[0]
#书籍价格
item["price"]=li.xpath('./p[@class="price"]/span')[0]
#照片连接
item["img"]=li.xpath('./a/img/@src')[0]
print(item)
print(eroot.xpath('//div[@class="over"]/ul/li/ul/li/a/@title'))