WordCount
作业班级:https://edu.cnblogs.com/campus/nue/SE202010
作业要求:https://edu.cnblogs.com/campus/nue/SE202010/homework/11481
作业目的:1.为该软件设计建立专属码云仓库,并建立readme文件,用于描述软件功能。2.学会利用PSP表格来规划统筹整个设计过程。3.实现一个能够对文本文件中的单词的词频进行统计的控制台程序。
学号:2001002
一、码云地址
https://gitee.com/sililala/study
已建立readme文件,并上传了wordcount程序代码。
二、PSP表格
|
PSP2.1 |
Personal Software Process Stages |
预估耗时(分钟) |
实际耗时(分钟) |
|
Planning |
计划 |
15 |
15 |
|
· Estimate |
· 估计这个任务需要多少时间 |
10 |
10 |
|
Development |
开发 |
30 |
30 |
|
· Analysis |
· 需求分析 (包括学习新技术) |
20 |
30 |
|
· Design Spec |
· 生成设计文档 |
0 |
0 |
|
· Design Review |
· 设计复审 |
0 |
0 |
|
· Coding Standard |
· 代码规范 (为目前的开发制定合适的规范) |
30 |
30 |
|
· Design |
· 具体设计 |
20 |
40 |
|
· Coding |
· 具体编码 |
120 |
180 |
|
· Code Review |
· 代码复审 |
20 |
30 |
|
· Test |
· 测试(自我测试,修改代码,提交修改) |
20 |
30 |
|
Reporting |
报告 |
10 |
30 |
|
· Test Repor |
· 测试报告 |
10 |
20 |
|
· Size Measurement |
· 计算工作量 |
5 |
20 |
|
· Postmortem & Process Improvement Plan |
· 事后总结, 并提出过程改进计划 |
20 |
30 |
|
|
合计 |
330 |
495 |
三、学习日志

四、解题思路
统计字符数、词量、行数就是要做一个遍历循环,一旦符合条件便进行+1;
统计词频则需建立用于词频计算的空字典然后对文本的每一行计算词频,从字典中获取数据对到列表中,最后对列表中的数据交换位置,并排序。
五、功能测试
对一个10000个以上单词的文本进行分析,结果如下:

六、性能分析


程序运行总时间为10ms,总体而言效率较快,其中主函数和processline函数(用于把标点符号替换为空格)耗时较久,优化可对主函数进行。
七、代码说明

把标点符号用空格替代。

进行遍历统计行数、单词数、字母数。

建立词典统计词频。
八、心得体会
1、初步掌握了如何对一个文档进行词频、单词数等数据进行统计。
2、通过实践对自己刚学的字典与集合有了更深的理解,能更加灵活地运用。
3、通过这段时间的学习,在不断实践中Python水平比单单从书本中获取知识提升得更快。
4、通过本次作业,基本了解PSP表格的使用方法及作用。
浙公网安备 33010602011771号