林凯斌---第一次编程作业

博客班级 2018级计算机和综合实验班
作业要求 第一次个人编程作业
作业目标 数据采集与处理,数据可视化--词云图,git的使用
作业源代码 first-personal-work
学号 211806172

  • 简单的时间记录
时间分布 分析思路 编写代码 代码行数 知识学习
10h+ 1h+ 5h+ 100+ 4h+
1 首先进入链接 腾讯视频《在一起》 后发现,点
可以获取全部评论信息。
2 接着编写代码

3 数据处理 借鉴他人代码如下
cut_words="" for line in open('./comments.json',encoding='utf-8'): line.strip('\n') line = re.sub("[A-Za-z0-9\:\·\—\,\。\“ \”]", "", line) seg_list=jieba.cut(line,cut_all=False) cut_words+=(" ".join(seg_list)) all_words=cut_words.split() print(all_words) c=Counter() for x in all_words: if len(x)>1 and x != '\r\n': c[x] += 1

GitHub

  1. 在文件夹右键,点击 Git Bash Here。
  2. 输入 git init,进行初始化。
  3. 输入 git remote add origin 仓库地址,来连接仓库。
  4. 输入 git clone 仓库地址,将远程仓库的内容克隆到本地仓库。
  5. 输入 cd first-personal-work,进入文件夹。
  6. 输入 git checkout -b crawl,切换分支。
  7. 输入 git add 文件名,将文件添加到暂存区。
  8. 输入 git commit -m "注释",提交到版本库。
  9. 输入 git push -u origin crawl,推送到远程仓库。
  10. 按上述步骤依次将文件提交到远程仓库。
  11. 输入 git checkout master,切换分支。
  12. 输入 git merge crawl 和 git merge chart,合并分支。

四、经验总结

  1. 学习jieba基础,练习四种模式

    • 全模式
    • 精确模式
    • 新词识别
    • 搜索引擎模式
  2. index.html写了两种代码,第一次写的时候不会自定义图形,只能进行简单的图形转换
    百度了自定义图形的方法换了百度的写法,将两种方法结合了一下(ps:改太多次已经乱了章法)

添加image
将形状图转换为base64形式,添加到代码中

  1. 在编写html的时候评论词无法修改颜色
    修改相关代码即可
textStyle: {
                color: function() {
                  return 'rgb(' + [
                        Math.round(Math.random() * 160),
                        Math.round(Math.random() * 160),
                        Math.round(Math.random() * 160)
                    ].join(',') + ')';
              }
            }

总结
1 放假这么久,知识忘了很多了,证明了自己知识的薄弱
2 以后的生活中要更加认真,将学习的知识记下来
3 对爬虫还是很生疏
4对新工具掌握很慢

五、参考文献

python爬虫学习笔记(一)—— 爬取腾讯视频影评
jieba“结巴”中文分词:做最好的 Python 中文分词组件
echarts实现词云自定义形状的示例代码
Commit message 和 Change log 编写指南![]

posted @ 2021-02-26 15:50  林凯斌啊  阅读(82)  评论(1)    收藏  举报