个人项目:论文查重

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Networkengineering1834
这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Networkengineering1834/homework/11146
这个作业的目标 学会使用Git工具,编写代码进行论文查重

1.GitHub代码仓库

https://github.com/Ty-yizhong/PaperCheck

2. PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 25 35
· Estimate · 估计这个任务需要多少时间 15 20
Development 开发 400 450
· Analysis · 需求分析 (包括学习新技术) 30 40
· Design Spec · 生成设计文档 20 40
· Design Review · 设计复审 30 40
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 10 15
· Design · 具体设计 40 50
· Coding · 具体编码 200 220
· Code Review · 代码复审 30 30
· Test · 测试(自我测试,修改代码,提交修改) 40 40
Reporting 报告 50 70
· Test Report · 测试报告 20 20
· Size Measurement · 计算工作量 10 10
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 20 20
Total · 合计 940 1100

3.计算模块接口的设计与实现过程

算法分析

MinHash在大数据集中求杰尔德相似度的解决方案,通过对数据文本的降维,大大提高计算速度。
参考文章:https://blog.csdn.net/xiaofengcanyuexj/article/details/52578795

4.计算模块接口部分的性能改进。

模块审计

各模块占用时间及内存

5.计算模块部分单元测试展示。

(D:\paperpass\orig.txt) 跟 (D:\paperpass\orig_0.8_add.txt) 相似度: 71.09%
(D:\paperpass\orig.txt) 跟 (D:\paperpass\orig_0.8_del.txt) 相似度: 52.34%
(D:\paperpass\orig.txt) 跟 (D:\paperpass\orig_0.8_dis_1.txt) 相似度: 71.09%
(D:\paperpass\orig.txt) 跟 (D:\paperpass\orig_0.8_dis_10.txt) 相似度: 47.66%
(D:\paperpass\orig.txt) 跟 (D:\paperpass\orig_0.8_dis_15.txt) 相似度: 30.47%
(D:\paperpass\orig.txt) 跟 (D:\paperpass\orig.txt) 相似度: 100.00%

6.计算模块部分异常处理说明。

posted @ 2020-09-25 00:45  一钟  阅读(165)  评论(0)    收藏  举报