个人项目1:文章查重

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Internationalcourseincomputationalscienceandtechnology
这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Internationalcourseincomputationalscienceandtechnology/homework/12187
这个作业的目标 实现论文查重算法,学习PSP使用,熟练github操作

Github仓库链接:
https://github.com/JudgeDu/JadeDu/tree/main/3119009467

PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 10 10
Estimate 估计这个任务需要多少时间 10 10
Development 开发 600 510
Analysis 需求分析 (包括学习新技术) 200 230
Design Spec 生成设计文档 30 40
Design Review 设计复审 15 20
Coding Standard 代码规范 (为目前的开发制定合适的规范) 20 20
Design 具体设计 120 100
Coding 具体编码 400 420
Code Review 代码复审 30 60
Test 测试(自我测试,修改代码,提交修改) 30 30
Reporting 报告 120 180
Test Repor 测试报告 30 30
Size Measurement 计算工作量 20 20
Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 15 15
Sum up 合计 1650 1695

计算模块接口部分的性能

如上

设计思路
我在网上进行了相关学习后决定使用计算余弦值的方法。如下
用jieba切割句子,成为一个个单独的字或词

为词赋值,将其转化为单位向量,并且计算余弦值,然后判断重复率

测试结果

如上

异常处理说明

如上

posted @ 2021-09-20 23:53  苍石渡  阅读(50)  评论(0编辑  收藏  举报