林凯斌---第一次编程作业
| 博客班级 | 2018级计算机和综合实验班 |
|---|---|
| 作业要求 | 第一次个人编程作业 |
| 作业目标 | 数据采集与处理,数据可视化--词云图,git的使用 |
| 作业源代码 | first-personal-work |
| 学号 | 211806172 |
- 简单的时间记录
| 时间分布 | 分析思路 | 编写代码 | 代码行数 | 知识学习 |
|---|---|---|---|---|
| 10h+ | 1h+ | 5h+ | 100+ | 4h+ |
| 1 首先进入链接 腾讯视频《在一起》 后发现,点 | ||||
| 可以获取全部评论信息。 | ||||
| 2 接着编写代码 | ||||
![]() |
3 数据处理 借鉴他人代码如下
cut_words="" for line in open('./comments.json',encoding='utf-8'): line.strip('\n') line = re.sub("[A-Za-z0-9\:\·\—\,\。\“ \”]", "", line) seg_list=jieba.cut(line,cut_all=False) cut_words+=(" ".join(seg_list)) all_words=cut_words.split() print(all_words) c=Counter() for x in all_words: if len(x)>1 and x != '\r\n': c[x] += 1

GitHub
- GitHub代码地址:Auxim10/first-personal-work
- 在文件夹右键,点击 Git Bash Here。
- 输入 git init,进行初始化。
- 输入 git remote add origin 仓库地址,来连接仓库。
- 输入 git clone 仓库地址,将远程仓库的内容克隆到本地仓库。
- 输入 cd first-personal-work,进入文件夹。
- 输入 git checkout -b crawl,切换分支。
- 输入 git add 文件名,将文件添加到暂存区。
- 输入 git commit -m "注释",提交到版本库。
- 输入 git push -u origin crawl,推送到远程仓库。
- 按上述步骤依次将文件提交到远程仓库。
- 输入 git checkout master,切换分支。
- 输入 git merge crawl 和 git merge chart,合并分支。
![]()
![]()
四、经验总结
-
学习jieba基础,练习四种模式
- 全模式
- 精确模式
- 新词识别
- 搜索引擎模式
-
index.html写了两种代码,第一次写的时候不会自定义图形,只能进行简单的图形转换
百度了自定义图形的方法换了百度的写法,将两种方法结合了一下(ps:改太多次已经乱了章法)
添加image
将形状图转换为base64形式,添加到代码中
- 在编写html的时候评论词无法修改颜色
修改相关代码即可
textStyle: {
color: function() {
return 'rgb(' + [
Math.round(Math.random() * 160),
Math.round(Math.random() * 160),
Math.round(Math.random() * 160)
].join(',') + ')';
}
}
总结
1 放假这么久,知识忘了很多了,证明了自己知识的薄弱
2 以后的生活中要更加认真,将学习的知识记下来
3 对爬虫还是很生疏
4对新工具掌握很慢
五、参考文献
python爬虫学习笔记(一)—— 爬取腾讯视频影评
jieba“结巴”中文分词:做最好的 Python 中文分词组件
echarts实现词云自定义形状的示例代码
Commit message 和 Change log 编写指南![]



浙公网安备 33010602011771号