怎么这个评论区也有你?!——豆瓣三电影影评用户分析(进度:Done.)Douban-three-movies-analyser ver.0.1.0

Douban-three-movies-analyser ver.0.1.0

github repo.

项目说明

本项目旨在分析3个电影之间的用户分布,借以更好地分析三部电影的关系。

为避免版权纠纷等缘故,样例结果图进行了匿名。

out.png

作业Q&A

半爬虫 + 半算法题

Q: 可以是 Web,也可以是用 Python 直接画,静态即可
A: Venn图保存在了目录中的out.png

Q: 算法部分三个 Up 主的选择上,请选择同一类别的 Up,而且粉丝数尽量不要太多(1W~10W左右即可!)
A: 选择了豆瓣影评(短评都是50-70w,太多了)

Q: 爬虫部分,标注好每个时间对应的粉丝数
A: 将在bilibili那个项目中实现

Q: 数据请勿商用,不要公示爬到的粉丝具体数据;如果 B 站数据太大爬不动,可以换成知乎~
A: 仅公示源代码,不公示具体数据

Q: 允许重合度不完全准确,但是最好要给出正确答案并计算偏差
A: 完全准确

Q: 如果有分工,请用 Github 协作
A: 无分工,但是github项目在github repo.

使用工具/教程与疑难杂症

语言及库

Python: urllib, matplotlib_venn, json, re(regex), etc...

python字典相加

如果A字典存在的key不需要与B存在的key相加,就只需要A.update(B)即可

码农之家: Python两个字典键同值相加的方法总结.

绘制venn图

CSDN: python 基于matplotlib_venn实现维恩图的绘制.

StackOverflow: 保存Venn图.

matplotlib中文乱码

知乎: matplotlib图例中文乱码.

git回滚与撤销

简书: git 删除历史commit.

CSDN: git pull --rebase 做了什么? 以及 Cannot rebase: You have unstaged changes 解决办法.

posted @ 2021-02-20 23:20  LacLic  阅读(126)  评论(0编辑  收藏  举报