软件工程第二次作业
| 这个作业属于哪个课程 | 2023软件工程-双学位 (广东工业大学 - 计算机学院) |
|---|---|
| 这个作业要求在哪里 | 软件工程第二次作业 |
| 这个作业的目标 | 论文查重 |
Gitcode链接
PSP表格
| Personal Software Process Stages | 预估耗时(分钟) | 实际耗时(分钟) |
|---|---|---|
| 计划 | 10 | 15 |
| 估计这个任务需要多少时间 | 800 | 1000+ |
| 开发 | 400 | 580 |
| 需求分析 (包括学习新技术) | 800 | 600 |
| 生成设计文档 | 30 | 20 |
| 设计复审 | 60 | 30 |
| 代码规范 (为目前的开发制定合适的规范) | 20 | 10 |
| 具体设计 | 100 | 60 |
| 具体编码 | 240 | 480 |
| 代码复审 | 50 | 20 |
| 测试(自我测试,修改代码,提交修改) | 20 | 18 |
| 报告 | 30 | 42 |
| 测试报告 | 30 | 16 |
| 计算工作量 | 10 | 12 |
| 事后总结, 并提出过程改进计划 | 10 | 14 |
实现过程
1、先读取文本

2、对文本进行分词操作,使用第三方库jieba

3、利用余弦相似度来比较两篇文章之间的相似度

4、输出结果

结果展示

反思与总结
这次作业对于我来说难度较大,需要紧急学习一门以前没有学习过的语言(Python),然后再参考他人的成果如TF-IDF与余弦相似性的应用(二):找出相似文章、Python:jieba库的介绍与使用以及通过别人的教导完成。

浙公网安备 33010602011771号