第一个爬虫爬取豆瓣小王子书评

获取URL - 这边使用的是 requests 模块

解释 URL - 这边使用的是 Xpath

第一步进入网页分析网页打开评论(https://book.douban.com/subject/1084336/comments/)

注意

网页的构成，判断网页是否使用了JS加载，因为如果网页是静态网页我们就可以直接获取网页的源代码

如下图：这边使用的是谷歌浏览器

禁止后重新加载，发现我们要爬取内容的页面并无变化，这说明我们的内容可以就在源代码中获取。此时按F12打开开发者模式，选取我们将要爬取品论的内容，右键检查如下：

接下来提取该Xpath

import  requests
from lxml import etree
url = "https://book.douban.com/subject/1084336/comments/"
respone = requests.get(url).text
e = etree.HTML(respone)
pattern = e.xpath('//*[@id="comments"]/ul/li[1]/div[2]/p/text()')
print(pattern)

posted @ 2018-03-17 13:26 瀚海剑阅读(777) 评论(0) 收藏举报

刷新页面返回顶部

瀚海剑

第一个爬虫爬取豆瓣小王子书评

公告