第一次个人编程作业

第一次个人编程作业

Github:https://github.com/FZUwhy/031802627

第一眼看到题目为论文查重的时候
还以为是给两篇论文打印出来用肉眼进行对比查重
随着对需求阅读的深入
越看越感觉到不对劲
随后就off了电脑
直至某晚在CSDN(****)上面搜到了“中文文本查重”才使我看到了一丁点儿的希望

PSP表格估计各模块耗时:

流程图:

一开始在****上面看到的是TFIDF算法,直接引用下来发现结果与测试组数据差距离谱:

再次打开****又看到了杰卡德算法,便又直接引用下来发现还是与测试组数据相差甚远:

随后在****中学习到了jieba(结巴)库具有分词功能,尝试与杰卡德算法合体,发现数据还是相对理想的:


之后在博客中看见了大佬提交的报告,其中有一小块是关于删除标点符号的优化,我便写了一个简单的删除标点符号的代码:

随后我选择了dis_1测试组,对比杰卡德,杰卡德+结巴,杰卡德+结巴+删符号:

附一张dis_1应作业要求输入输出截图(github已改为小数点后两位输出):

性能分析图:


测试:




覆盖率:


PSP表格各模块实际耗时:

总结:

1.相比于其他语言,对于我zhei种zhazha,0基础学python感jio还是可以接受的。

2.不仅查资料敲代码费头发,写博客的时候对比作业要求不断发现新的需求也很费脑。

3.****确实好用。

4.cmd是真的迷!

posted @ 2020-09-16 00:10  FZUwhy  阅读(286)  评论(0)    收藏  举报