黄文锐--第一次个人编程作业

这个作业属于哪个课程 <班级的链接> 综合实验班 (福州大学至诚学院 - 计算机工程系)
这个作业要求在哪里 <作业要求的链接> 第一次个人编程作业
这个作业的目标 <你理解的作业目标具体内容> 采集腾讯视频里电视剧《在一起》的全部评论信息并制作词云并在 html 中展示,将代码推送到远程
学号 <你的学号> 211804210

GitHub 仓库地址

1.数据采集

打开《在一起》网页 https://v.qq.com/x/cover/mzc00200jg5gfcq.html,用开发者工具检查评论

打开网页源代码发现无法找到 comment-content 中的内容,原因是网页异步加载

打开网页开发者工具的网络,刷新,加载更多的评论观察异步加载的请求

在新加载的请求中,发现 v2?callback 开头的请求内包含评论的信息,继续加载更多的评论发现在请求 URL 中的 source 是随着评论页数的增加而增加
利用 source 的增加找出共 1270 页的评论

2.数据分词并生成词云图

我使用 thulac 分词器分词

js渲染图结果

3.上传 GitHub

分支的问题还是有一点搞不清楚,总是还原 git init 然后越来越乱,总是出现 ssh: Could not resolve hostname github: Name or service not known

参考资料
Git, GitHub初学者使用指南
echarts
李明特---第一次个人编程作业

posted @ 2021-02-26 02:33  黄文锐  阅读(95)  评论(1)    收藏  举报