| 这个作业属于哪个课程 | 计科22级12班 |
|---|---|
| 这个作业要求在哪里 | https://edu.cnblogs.com/campus/gdgy/CSGrade22-12/homework/13220 |
| 这个作业的目标 | 遍历论文查重并封装成可执行文件,学习PSP和commit规范,学习测试和评估代码 |
文件结构

流程图

实现逻辑
短文本分析:通过计算词频向量的余弦相似度来评估文本的相似度。
长文本分析:通过提取关键词并计算关键词集合的交集和并集的比例来评估文本的相似度。
Simhash:通过计算文本的 Simhash 值和它们之间的汉明距离来评估文本的相似度。
性能改进

其中加载模型和导入文件耗时较久
改进思路:并行或多线程加载文件
测试结果


覆盖率

覆盖率较高
异常处理说明
FileNotFoundError:文件未找到异常。
解决:打印一条有意义的错误消息,提示用户文件路径无效。
OSError:IO错误可能是文件权限错误或文件路径没找到
PSP表格
| 阶段 | 描述 | 预估耗时(分钟) | 实际耗时(分钟) |
|---|---|---|---|
| Planning | 计划 | 5min | 5min |
| · Estimate | · 估计这个任务需要多少时间 | 5min | 10min |
| Development | 开发 | 5h | 6h |
| · Analysis | · 需求分析 (包括学习新技术) | 2h | 2.5h |
| · Design Spec | · 生成设计文档 | 1h | 1h |
| · Design Review | · 设计复审 | 20min | 10min |
| · Coding Standard | · 代码规范 (为目前的开发制定合适的规范) | 20min | 30min |
| · Design | · 具体设计 | 20min | 10min |
| · Coding | · 具体编码 | 30min | 1h |
| · Code Review | · 代码复审 | 30min | 1h |
| · Test | · 测试(自我测试,修改代码,提交修改) | 1h | 2h |
| Reporting | 报告 | 50min | 1h30min |
| · Test Report | · 测试报告 | 30min | 40min |
| · Size Measurement | · 计算工作量 | 10min | 10min |
| · Postmortem & Process Improvement Plan | · 事后总结, 并提出过程改进计划 | 10min | 10min |
| 合计 | 11.5h | 17h |
浙公网安备 33010602011771号