简单论文查重项目

项目信息

课程 https://edu.cnblogs.com/campus/gdgy/cse2021
作业要求 https://edu.cnblogs.com/campus/gdgy/cse2021/homework/12254
作业目标 熟悉并掌握个人项目开发流程
GitHub https://github.com/Wulalalala0-0/PersonalProject-01/tree/V1.0

个人开发时间估算

PSP 2.1 预计耗时(分钟) 实际耗时(分钟)
Planning 20 10
Estimate 20 10
Development 170 155
Analysis 15 20
Design Spec 30 30
Design Review 10 15
Coding Standard 10 5
Design 30 20
Coding 30 30
Code Review 30 15
Test 15 20
Reporting 60 60
Test Repor 20 30
Size Measurement 10 20
Postmortem & Process Improvement Plan 30 10
Summary 250 225

实现过程

image

算法分析

由于学识过于浅薄,不会使用机器学习方面的语义分析等计算模型,故采用了传统的数学方法。

余弦相似度,就是使用空间中的两个向量夹角,来判断两个向量的相似度,那么如何将一段实际存在的文字转换为抽象的向量呢?

我们想到了两篇文章中各自的词汇与其数量的数值刚好可以组成一个 (x,y) 坐标,这样我们便有了基本数据,之后便可根据公式计算:

math

这里将两篇文章拆分成词汇的工具使用了使用MIT开源协议的 JiebaSegmenter ,其基本原理就是查字典。

单元测试

image
image

posted @ 2021-09-18 18:15  思思不羡仙  阅读(131)  评论(0)    收藏  举报