第一次个人编程作业
第一次个人编程作业
Github:https://github.com/FZUwhy/031802627
第一眼看到题目为论文查重的时候
还以为是给两篇论文打印出来用肉眼进行对比查重
随着对需求阅读的深入
越看越感觉到不对劲
随后就off了电脑
直至某晚在CSDN(****)上面搜到了“中文文本查重”才使我看到了一丁点儿的希望
PSP表格估计各模块耗时:

流程图:

一开始在****上面看到的是TFIDF算法,直接引用下来发现结果与测试组数据差距离谱:

再次打开****又看到了杰卡德算法,便又直接引用下来发现还是与测试组数据相差甚远:

随后在****中学习到了jieba(结巴)库具有分词功能,尝试与杰卡德算法合体,发现数据还是相对理想的:


之后在博客中看见了大佬提交的报告,其中有一小块是关于删除标点符号的优化,我便写了一个简单的删除标点符号的代码:

随后我选择了dis_1测试组,对比杰卡德,杰卡德+结巴,杰卡德+结巴+删符号:

附一张dis_1应作业要求输入输出截图(github已改为小数点后两位输出):

性能分析图:


测试:




覆盖率:


PSP表格各模块实际耗时:


浙公网安备 33010602011771号