Project2——论文查重系统(PPCS)
作业要求
| 工程概论 | 班级链接 |
|---|---|
| 作业要求 | 作业的要求链接 |
| 作业的目标 | 熟悉项目流程 |
需求
| 语言 | Java |
| 目标 | 对输入的两个文件进行查重 |
| 输出 | 命令行显示,并存入文件 |
| 要求 | 输出浮点型结果 |
算法流程
1.文本处理
使用空格分隔文本,并切换成小写
2.获取特征向量
并用分隔后得到的单词,组成词频向量
3.计算余弦相似度
用两个向量的点积除以二者的范数之积来计算余弦相似度
优缺点:
速度快,代码简单,但无法联系上下文,无法真正地对比语义信息。
PSP表格
| PSP2.1 | Personal Software Process Stages | 预估耗时(分钟) | 实际耗时(分钟 |
|---|---|---|---|
| Planning | 计划 | 5 | 5 |
| Estimate | 估计这个任务需要多少时间 | 3 | 1 |
| Development | 开发 | - | - |
| Analysis | 需求分析 (包括学习新技术) | - | - |
| Design Spec | 生成设计文档 | - | - |
| Design Review | 设计复审 | - | - |
| Coding Standard | 代码规范 (为目前的开发制定合适的规范) | - | - |
| Design | 具体设计 | 10 | 5 |
| Coding | 具体编码 | 20 | 20 |
| Code Review | 代码复审 | - | - |
| Test | 测试(自我测试,修改代码,提交修改) | 20 | 15 |
| Reporting | 报告 | 30 | 25 |
| Test Repor | 测试报告 | - | - |
| Size Measurement | 计算工作量 | - | - |
| Postmortem & Process Improvement Plan | 事后总结, 并提出过程改进计划 | - | - |
| 合计 | 88 | 71 |
性能分析
读取文件内容使用时间:1ms
计算相似度使用时间:3ms

异常处理
文件读取异常

文件写入异常


浙公网安备 33010602011771号