个人项目-论文查重

GitHub链接:3218005396

这个作业属于哪个课程 软件工程
这个作业要求在哪里 个人项目作业
这个作业的目标 学习使用PSP表格,学习commit规范

计算模块接口的设计与实现过程

  1. 文件读写类
  2. 分词与计算类
  3. 自定义异常类

思路

先将每个句子依据中文词汇分词,接着统计词频,再使用位置向量分析每一个词在全文的分布大概是如何的,从宏观上来分析两篇文章的相似度。
其中使用hanlp分词,遍历存放着词与词频信息的map,计算cos值。最后比对得出答案。

单元测试得到的测试覆盖率截图

总方法覆盖率:

细看覆盖率:

性能检测

速度:

内存:

算法评估

我还是太菜了!!呜呜呜
这个算法只能遍历到第一个句子有的词语,当第一句和第二句开头一样而第二句多出一截时,测试出来的查重率可能是1,不太准。以后还是需要改进!

PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
· Estimate · 估计这个任务需要多少时间 40 40
· Analysis · 需求分析 (包括学习新技术) 200 380
· Design Spec · 生成设计文档 60 80
· Design Review · 设计复审 20 30
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 40 30
· Design · 具体设计 30 30
· Coding · 具体编码 200 220
· Code Review · 代码复审 30 20
· Test · 测试(自我测试,修改代码,提交修改) 60 90
· Test Repor · 测试报告 30 30
· Size Measurement · 计算工作量 15 20
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 20 20
· 合计 745 990
posted @ 2020-09-24 23:29  打码的伞  阅读(145)  评论(0编辑  收藏  举报