python爬取当当网书籍信息

'''
url
http://book.dangdang.com/
请求方式
GET
请求头
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36
请求参数

'''
#1.导入模块
import requests

from lxml import html
etree=html.etree

#2.发送请求

response=requests.get(
    url="http://book.dangdang.com/",
    headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
    }
)
#处理响应

eroot=etree.HTML(response.text)

# print(response.text)

#使用Xpath爬取当当数据
#//li/a/@title  广泛书名
#//li/a/img/@src 图片

#推荐书籍的列表
#//div[@id="book_reco"]/ul/li/p/a/text() 规范书名
#//div[@id="book_reco"]/ul/li/p[@class="price"]  规范价格
#//div[@id="book_reco"]/ul/li/a/img/@src 书籍图片

#//div[@class="over"]/ul/li/ul/li/a/@title 书名
#//div[@class="over"]/ul/li/ul/li/a/img/@src 照片
#//div[@class="over"]/ul/li/ul/li/p[@class="price"]/span[@class="rob"]价格

div_list=eroot.xpath('//div[@class="over"]/ul/li/ul/li')

for li in div_list:
    item={}
    #书名
    item["name"]=li.xpath('./a/@title')[0]
    #书籍价格
    item["price"]=li.xpath('./p[@class="price"]/span')[0]
    #照片连接
    item["img"]=li.xpath('./a/img/@src')[0]
    print(item)


print(eroot.xpath('//div[@class="over"]/ul/li/ul/li/a/@title')) 

 

posted @ 2020-09-27 14:40  林也  阅读(871)  评论(0)    收藏  举报