第一次编程作业

第一次个人编程作业

GitHub链接:https://github.com/vickieeeeeee/3118005390

这个作业属于哪个课程 软件工程
这个作业要求在哪里 作业要求
这个作业的目标 论文查重个人项目 + 单元测试 + PSP表格 + Git管理 + 性能测试

PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 30 20
· Estimate · 估计这个任务需要多少时间 30 20
Development 开发 250 400
· Analysis · 需求分析 (包括学习新技术) 25 50
· Design Spec · 生成设计文档 15 10
· Design Review · 设计复审 15 10
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 15 5
· Design · 具体设计 30 20
· Coding · 具体编码 280 100
· Code Review · 代码复审 30 15
· Test · 测试(自我测试,修改代码,提交修改) 40 100
Reporting 报告 45 10
· Test Repor · 测试报告 20 10
· Size Measurement · 计算工作量 15 15
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 20 10
· 合计 515 795

计算模块接口的设计与实现过程

整体流程

  • 通过命令行接收原文文件输入路径、抄袭版论文的文件输入路径、答案文件输出路径。

  • 对文本内容进行处理。
    1.保留文字

    2.去停用词

  • 通过核心算法得出相似度。

  • 输出答案。

流程图

接口过程设计与实现

接口过程需要 文本预处理、结巴分词、tfidf转换文本向量、gensim计算相似度

整个流程关键在于文本预处理和tfidf转换向量上

预处理需要将文本进行清洗,保留文字,去除停用词。

清洗文字代码

要注意清洗时str和list之间的类型转换

核心算法

程序运行截图

性能改进

可绕过语料库之间进行对比判断

部分单元测试

预处理部分

计算部分

异常处理

要求输入3个路径,没有输入则报错

posted @ 2020-09-24 20:51  小羊の博客  阅读(137)  评论(0)    收藏  举报