软件工程第二次作业
这个作业属于哪个课程 | 2023软件工程-双学位 (广东工业大学 - 计算机学院) |
---|---|
这个作业要求在哪里 | 软件工程第二次作业 |
这个作业的目标 | 论文查重 |
Gitcode链接
PSP表格
Personal Software Process Stages | 预估耗时(分钟) | 实际耗时(分钟) |
---|---|---|
计划 | 10 | 15 |
估计这个任务需要多少时间 | 800 | 1000+ |
开发 | 400 | 580 |
需求分析 (包括学习新技术) | 800 | 600 |
生成设计文档 | 30 | 20 |
设计复审 | 60 | 30 |
代码规范 (为目前的开发制定合适的规范) | 20 | 10 |
具体设计 | 100 | 60 |
具体编码 | 240 | 480 |
代码复审 | 50 | 20 |
测试(自我测试,修改代码,提交修改) | 20 | 18 |
报告 | 30 | 42 |
测试报告 | 30 | 16 |
计算工作量 | 10 | 12 |
事后总结, 并提出过程改进计划 | 10 | 14 |
实现过程
1、先读取文本
2、对文本进行分词操作,使用第三方库jieba
3、利用余弦相似度来比较两篇文章之间的相似度
4、输出结果
结果展示
反思与总结
这次作业对于我来说难度较大,需要紧急学习一门以前没有学习过的语言(Python),然后再参考他人的成果如TF-IDF与余弦相似性的应用(二):找出相似文章、Python:jieba库的介绍与使用以及通过别人的教导完成。