word count作业
代码仓库地址:https://gitee.com/hgxiaochen/temp.git
首先感谢在老师的帮助下,本地通过GIt上传代码到码云终于成功了。自己真的花费了好长时间没整明白,总是报错,一会说没有权限,一会说clean tree。
一、 PSP表格

二 、学习日志
(1)时间安排: 1月7号 19:00-20:00
(2)学习内容: 了解项目要求编写一个wordcount,上网查找资料,学习python字典,在码云建立自己的仓库
(3)学习体会: 对编程语言不熟悉,感觉这次任务还是有难度的
(1)学习时间: 1月8号 19:30-20:30
(2)学习内容: 根据网上资料尝试编写一个小程序,实现字符数的统计,学习for循环和字典有关内容
(3)体会: 书到用时方恨少
(1)时间: 1月9 号
(2)学习内容: 了解到上传本地代码需要下载Git客户端,下载客户端,并按照网上教程一步一步上传代码,费了很长时间还是不成功,无奈。
(3)体会: 快要交作业了,代码依旧进展很慢
(1)时间:8:00-
(2)内容: 课堂上在老师的帮助下,终于可以实现上传,这么多灾多难的上传过程老师也是第一次见···,感谢老师。编写随笔,尝试完善后续功能
(3)体会: 经过一上午但现在下午15:48,程序实现了统计单词个数,全部化为小写,单词总词数和行数统计还在继续。
三 解题思路以及设计等
1 、解题思路
首先明白题目的要求,逐步实现基础功能,大量查找资料,请教老师和同学。
2、体会
会编程和不会编程差别真的大啊,遇到统计总字符数想不出来,请教了一个老师,高屋建瓴啊
3、基本实现的功能
统计总字符数,统计词频最高的10个数,将全部单词首字母小写。
四 编写代码
1、代码
import re
str_text="""The measures were submitted amid concern the president might dismiss Mr Mueller, as he fired former FBI director James Comey in May, citing the Russia inquiry in his decision."""
str_text = re.sub('[^a-zA-Z0-9n]', ' ', str_text) #非英文非数字特殊字符的去除
str_lyst1=str_text.split() # 对文本内容分词,形成一个列表
str_lyst1=[item.lower() for item in str_lyst1] #将列表中的单词全部小写
count_dict={} #创建字典
count_sum = 0
for item in str_lyst1: # 如果字典里有该单词则加1,否则添加入字典
if item in count_dict.keys():
count_dict[item] +=1
count_sum +=1
else:
count_dict[item] =1
count_sum +=1
# 将列表中的单词按词频从大到小排列,输出前10个
count_list=(sorted(count_dict.items(),key=lambda x:x[1],reverse=True)[0:10])
print(count_list) #输出频率前十个单词
print(count_sum) #输出单词总数
2、测试用例

五 实验体会
今天截止到17:00差不多已经搞了12个点,实现的功能还很少,列如封装接口什么的都没有涉及,也没来得及去查,想统计行数,还是没有实现。对于编程熟练的人来说,这很简单,对于我这种小白就有点难受,希望把每天的时间利用起来,学习python。实际花费的时间还是比psp表格记录的时间多多了

浙公网安备 33010602011771号