黄文锐--第一次个人编程作业
| 这个作业属于哪个课程 <班级的链接> | 综合实验班 (福州大学至诚学院 - 计算机工程系) |
|---|---|
| 这个作业要求在哪里 <作业要求的链接> | 第一次个人编程作业 |
| 这个作业的目标 <你理解的作业目标具体内容> | 采集腾讯视频里电视剧《在一起》的全部评论信息并制作词云并在 html 中展示,将代码推送到远程 |
| 学号 <你的学号> | 211804210 |
1.数据采集
打开《在一起》网页 https://v.qq.com/x/cover/mzc00200jg5gfcq.html,用开发者工具检查评论

打开网页源代码发现无法找到 comment-content 中的内容,原因是网页异步加载
打开网页开发者工具的网络,刷新,加载更多的评论观察异步加载的请求

在新加载的请求中,发现 v2?callback 开头的请求内包含评论的信息,继续加载更多的评论发现在请求 URL 中的 source 是随着评论页数的增加而增加
利用 source 的增加找出共 1270 页的评论
2.数据分词并生成词云图
我使用 thulac 分词器分词
js渲染图结果

3.上传 GitHub
分支的问题还是有一点搞不清楚,总是还原 git init 然后越来越乱,总是出现 ssh: Could not resolve hostname github: Name or service not known

浙公网安备 33010602011771号