第一个爬虫爬取豆瓣小王子书评
获取URL - 这边使用的是 requests 模块
解释 URL - 这边使用的是 Xpath
第一步进入网页分析网页打开评论(https://book.douban.com/subject/1084336/comments/)
注意
网页的构成,判断网页是否使用了JS加载,因为如果网页是静态网页我们就可以直接获取网页的源代码
如下图:这边使用的是谷歌浏览器

禁止后重新加载,发现我们要爬取内容的页面并无变化,这说明我们的内容可以就在源代码中获取。此时按F12打开开发者模式,选取我们将要爬取品论的内容,右键检查如下:

接下来提取该Xpath

import requests from lxml import etree url = "https://book.douban.com/subject/1084336/comments/" respone = requests.get(url).text e = etree.HTML(respone) pattern = e.xpath('//*[@id="comments"]/ul/li[1]/div[2]/p/text()') print(pattern)

浙公网安备 33010602011771号