豆瓣图书评论数据分析与可视化 -2025/6/4
📚 豆瓣图书短评爬取与分析:以《都挺好》为例
📝 题目描述
以《平凡的世界》《都挺好》等图书为对象,编写爬虫程序抓取豆瓣读书上前 3 页短评信息,并完成如下功能:
功能要求:
-
跨页连续爬取短评信息(前 3 页)。
-
爬取字段包括:用户名、短评内容、评论时间、评分、点赞数(有用数)。
-
支持按排序方式(热门或最新)抓取,分别输出前 10 条短评信息。
-
按照点赞数降序输出前 10 条短评信息。
-
(附加)结合中文分词与词云,对前 3 页短评文本内容进行分析:
- 输出词频最高的前 10 个词语
- 生成词云图
🔍 分析目标页面 URL
示例 URL:
https://book.douban.com/subject/20492971/comments/?start=20&limit=20&status=P&sort=score
URL 参数解释:
| 参数部分 | 含义 |
|---|---|
/subject/20492971 |
图书 ID:20492971 |
/comments/ |
评论页面 |
start=20 |
分页参数,从第 20 条开始 |
limit=20 |
每页显示 20 条评论 |
status=P |
评论状态:P 表示已发布 |
sort=score |
排序方式:按有用数排序 |
sort=time |
排序方式:按评论时间(需要登录) |
⚙️ Headers 和 Cookies 配置
豆瓣反爬机制较强,需模拟浏览器请求:
- 必须配置完整的 Headers 和 Cookies
- 可选:添加 代理 IP 池
- 建议:设置请求间隔,避免频繁访问
🧰 推荐工具:Convert curl to Python
可将浏览器复制的 cURL 请求一键转换为 Python 代码!
🐍 Python 实现代码
import matplotlib
import requests
from lxml import etree
import jieba
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt
matplotlib.rcParams['font.sans-serif'] = ['SimHei'] # 设置中文字体
matplotlib.rcParams['axes.unicode_minus'] = False # 正确显示负号
cookies = {
# 请替换为你自己的 cookies
}
headers = {
# 请替换为你自己的 headers
'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36'
}
def get_comment(page, sort_type, comment_list):
url = f'https://book.douban.com/subject/20492971/comments/?start={page * 20}&limit=20&sort={sort_type}&status=P'
response = requests.get(url, cookies=cookies, headers=headers)
response.encoding = 'utf-8'
tree = etree.HTML(response.text)
li_list = tree.xpath('//*[@id="comments"]/div[1]/ul/li')
for li in li_list:
try:
like_count = li.xpath('./div[2]/h3/span[1]/span/text()')[0].strip()
name = li.xpath('./div[2]/h3/span[2]/a[1]/text()')[0].strip()
score = li.xpath('./div[2]/h3/span[2]/span/@title')[0].strip()
time = li.xpath('./div[2]/h3/span[2]/a[2]/text()')[0].strip()
comment = li.xpath('./div[2]/p/span/text()')[0].strip()
comment_list.append({
'name': name,
'score': score,
'time': time,
'like_count': like_count,
'comment': comment
})
except Exception:
continue
print(f'第{page + 1}页爬取成功')
def analyze_text(comment_list):
all_text = ''.join([c['comment'] for c in comment_list])
words = jieba.lcut(all_text)
stop_words = set(['的', '了', '和', '是', '我', '也', '就', '都', '很', '在', '有', '不', '人'])
words = [word for word in words if len(word) > 1 and word not in stop_words]
word_counts = Counter(words)
top_words = word_counts.most_common(10)
print("词频前10名:")
for i, (word, count) in enumerate(top_words, 1):
print(f"{i}. {word}:{count} 次")
wc = WordCloud(
font_path='simhei.ttf',
background_color='white',
width=800,
height=600
).generate_from_frequencies(word_counts)
plt.figure(figsize=(10, 6))
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.title("豆瓣短评词云", fontsize=18)
plt.show()
wc.to_file("wordcloud.png")
def main():
choice = input("请输入查看类型(1:热门评论,2:最新评论):")
if choice == '1':
sort_type = 'score'
elif choice == '2':
sort_type = 'time'
else:
print("无效输入,默认使用热门评论。")
sort_type = 'score'
comment_list = []
for i in range(3):
get_comment(i, sort_type, comment_list)
print("\n前10条评论:\n")
for i, c in enumerate(comment_list[:10], 1):
print(f"{i}. {c['name']} | {c['score']} | {c['time']} | 赞:{c['like_count']}\n评论:{c['comment']}\n")
analyze_text(comment_list)
if __name__ == '__main__':
main()
🔧 安装依赖
# 基础请求与解析库
pip install requests lxml jieba
# 词云与可视化
pip install wordcloud matplotlib
🔑 技术要点解析
| 分类 | 要点说明 |
|---|---|
| 反爬策略 | 模拟浏览器行为(Headers + Cookies) 可选使用代理 IP 控制访问频率(如 time.sleep(random.uniform(1,3))) |
| 数据提取 | 使用 lxml.etree + XPath 精准定位评论内容 |
| 数据清洗 | 异常处理健壮、去空白、排除无效词 |
| 文本分析 | 基于 jieba 分词 + 自定义停用词统计高频词并生成词云图 |
🚨 注意事项
- 本代码仅用于学习交流,请勿用于商业或大规模抓取
- 尊重豆瓣 Robots 协议
- 大规模访问可能会封 IP,建议使用代理池和限速策略
🧠 结语
本项目完整演示了从数据爬取、结构化存储、文本分析到可视化输出的全过程,适合作为数据分析入门或课程实践项目的案例。
如需扩展,可进一步实现:
- 图书信息批量爬取
- 评论情感倾向分析(正面/负面)
- 评论时间趋势图可视化

浙公网安备 33010602011771号