张天池---第一次个人编程作业

博客班级	2018级计算机和综合实验班
这个作业要求在哪里	作业要求的链接
这个作业的目标	运用Git，灵活运用数据采集分析方法，以及可视化等
作业源代码	在这儿呢，这儿
学号	211806144

时间记录

数据采集	Ajax异步抓包	1.5H
数据处理词频统计	jieba分析数据	4.5H
绘制词云图	~~安装wordcloud，并用wordcloud进行词云图的绘制~~运用echarts进行操作，将词频统计汇集，最终页面形成词云图	4H

统计记录

代码行数	110行
需求分析时间	0.5H
编码时间	15H

过程分析

首先用chrome浏览器打开腾讯视频《在一起》评论页面（不出所料，猜到了这个是下拉型，首先瞄准了Ajax异步爬取）

仔细观察发现，我们发现url两处不同的地方，就是上图的这个v2?=和cursor，下拉发现每一次点击更多评论的下拉框按钮都会出现相应的v2?标签，点开发现了规律，也就是你每翻到下一页的评论url的末尾那一串数字会+1，可是cursor的规律还是没有找到，于是决定去js里面查找，复制其中一个url打开，结果可以说是非常amazing，多试了几次终于发现规律：cursor=？的值存在上面一个JS中

开爬！！！

这里吐槽一句，还是pycharm用的顺手一点，功能贼全，安装库也很简单轻松，spyder和jupyter就算了吧，哈哈...

代码如下，相关知识有些忘了，参考了一下别的大佬的,这里截取我的一部分代码

此时遇到了一些问题，每个页面的第一条爬取不成功，会自动跳到第二条进行爬取，更改了一下j变量为变量j+1

成功爬取相关评论，爬取结束！！！

开始进行数据分析，词条统计，并绘制词云图

注：其实并不一定需要进行词条统计，另一种思路，可以先将评论爬出来，将评论中多余的字符撇去，一样可以进行词云图绘制

关键代码：

这样子就把相关的词频统计出来了，但是之后我用了一种方法出现的词云图会出现问题，就是出现的词的数量并不多如下：

这样子太少了，对比一下其他同学的感觉自己就是个弟弟

所以换了一个代码，并简略了一下，将统计词频与绘制词云图函数功能放在了一起，我用了推特鸟的呈现效果，还是不错的，最终呈现如下效果：

但是老师规定的是要用echarts,所以在参考了相关代码后还是要用词频统计代码进行操作，键值对形式将词频输出，说是用导出json，用sublime最终在页面中呈现效果

之后的git操作因为在上一次的作业中熟悉过了，也就很轻松给弄出来了。

我的天，终于结束了，眼睛盯的电脑疼(」＞＜)」

作业小结反思：

果然，向杨雄老师道歉，学的爬虫知识有一部分换给您了，一开始是想用selenium进行爬取的，愣是不会...，另外对于git方面的知识虽说上一节熟悉了，但是这一次拓展加基础方面的综合还是有些吃力，路遥知马力，我还是要继续努力的。

参考资料

1.Python爬虫实战：爬取腾讯视频的评论

2.Python文本挖掘: 词频统计，词云图

3.使用Git上传文件至Github

4.GitHub分支创建及合并

posted @ 2021-02-20 00:37 CleverGodZ 阅读(290) 评论(3) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部