简单论文查重项目
项目信息
| 课程 | https://edu.cnblogs.com/campus/gdgy/cse2021 |
|---|---|
| 作业要求 | https://edu.cnblogs.com/campus/gdgy/cse2021/homework/12254 |
| 作业目标 | 熟悉并掌握个人项目开发流程 |
| GitHub | https://github.com/Wulalalala0-0/PersonalProject-01/tree/V1.0 |
个人开发时间估算
| PSP 2.1 | 预计耗时(分钟) | 实际耗时(分钟) |
|---|---|---|
| Planning | 20 | 10 |
| Estimate | 20 | 10 |
| Development | 170 | 155 |
| Analysis | 15 | 20 |
| Design Spec | 30 | 30 |
| Design Review | 10 | 15 |
| Coding Standard | 10 | 5 |
| Design | 30 | 20 |
| Coding | 30 | 30 |
| Code Review | 30 | 15 |
| Test | 15 | 20 |
| Reporting | 60 | 60 |
| Test Repor | 20 | 30 |
| Size Measurement | 10 | 20 |
| Postmortem & Process Improvement Plan | 30 | 10 |
| Summary | 250 | 225 |
实现过程

算法分析
由于学识过于浅薄,不会使用机器学习方面的语义分析等计算模型,故采用了传统的数学方法。
余弦相似度,就是使用空间中的两个向量夹角,来判断两个向量的相似度,那么如何将一段实际存在的文字转换为抽象的向量呢?
我们想到了两篇文章中各自的词汇与其数量的数值刚好可以组成一个 (x,y) 坐标,这样我们便有了基本数据,之后便可根据公式计算:
这里将两篇文章拆分成词汇的工具使用了使用MIT开源协议的 JiebaSegmenter ,其基本原理就是查字典。
单元测试



浙公网安备 33010602011771号