第一个爬虫爬取豆瓣小王子书评

获取URL - 这边使用的是 requests 模块 

解释 URL - 这边使用的是 Xpath

 

第一步进入网页分析网页打开评论(https://book.douban.com/subject/1084336/comments/)

注意

网页的构成,判断网页是否使用了JS加载,因为如果网页是静态网页我们就可以直接获取网页的源代码

如下图:这边使用的是谷歌浏览器

禁止后重新加载,发现我们要爬取内容的页面并无变化,这说明我们的内容可以就在源代码中获取。此时按F12打开开发者模式,选取我们将要爬取品论的内容,右键检查如下:

 

 接下来提取该Xpath

 

import  requests
from lxml import etree
url = "https://book.douban.com/subject/1084336/comments/"
respone = requests.get(url).text
e = etree.HTML(respone)
pattern = e.xpath('//*[@id="comments"]/ul/li[1]/div[2]/p/text()')
print(pattern)

 

posted @ 2018-03-17 13:26  瀚海剑  阅读(777)  评论(0)    收藏  举报