PSP 表格(预估/实际耗时)
PSP2.1 |
Personal Software Process Stages |
预估耗时(分钟) |
实际耗时(分钟) |
Planning |
计划 |
600 |
300 |
Estimate |
估计这个任务需要多少时间 |
600 |
300 |
Development |
开发 |
120 |
240 |
Analysis |
需求分析 (包括学习新技术) |
120 |
80 |
Design Spec |
生成设计文档 |
40 |
30 |
Design Review |
设计复审 |
20 |
20 |
Coding Standard |
代码规范 (为目前的开发制定合适的规范) |
40 |
60 |
Design |
具体设计 |
480 |
300 |
Coding |
具体编码 |
300 |
240 |
Code Review |
代码复审 |
10 |
01 |
Test |
测试(自我测试,修改代码,提交修改) |
60 |
60 |
Reporting |
报告 |
60 |
60 |
Test Report |
测试报告 |
30 |
30 |
Size Measurement |
计算工作量 |
5 |
5 |
Postmortem & Process Improvement Plan |
事后总结, 并提出过程改进计划 |
20 |
30 |
合计 |
|
1440 |
600 |
算法设计
算法思路
1.读入两篇文章并转化为字符串
2.使用正则表达式匹配并去除文章标点符号
3.使用中文分词库HanLP进行文本分词
4.使用余弦相似度算法统计词频并计算出相似度
5.将结果写入目标文件
函数
函数 |
作用 |
calculateSimHash |
计算SimHash值 |
calculateHammingDistance |
计算海明距离 |
hash |
哈希函数 |
readTextFromFile |
从txt文件中读取内容 |
流程图
![image]()
性能分析
![2951353-20230920220414329-1158406190]()
单元测试
![2951353-20230920222854226-617190371]()
异常处理
读取文件可能会出现IO异常
![2951353-20230920224356888-1670299284]()
结果
![2951353-20230920224548841-217735318]()