第一次个人编程作业

这个作业属于哪个课程 软件工程
这个作业要求在哪里 个人项目作业
这个作业的目标 设计一个论文查重算法,给出一个原文文件和一个在这份原文上经过了增删改的抄袭版论文的文件,在答案文件中输出其重复率。

1. Github地址

Github

2. PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 100 120
Estimate 估计这个任务需要多少时间 40 30
Development 开发 300 350
Analysis 需求分析 (包括学习新技术) 200 150
Design Spec 生成设计文档 20 20
Design Review 设计复审 20 15
Coding Standard 代码规范 (为目前的开发制定合适的规范) 20 30
Design 具体设计 40 50
Coding 具体编码 300 250
Code Review 代码复审 100 150
Test 测试(自我测试,修改代码,提交修改) 30 40
Reporting 报告 20 20
Test Repor 测试报告 10 10
Size Measurement 计算工作量 10 10
Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 10 10
合计 1220 1255

3. 计算模块接口的设计与实现过程

工程截图

jieba

用于分词,将句段分为一个个词语。在pycharm中下载,有多种模式。这里选择精确模式,将句子最精确地切开,适合文本分析。

gensim

是一个自然语言处理工具,用于检测用jieba分词完成后的句段相似性。

性能分析

4. 单元测试

单元测试代码

import unittest
from main import main_test


class MyTestCase(unittest.TestCase):
    def test_something(self):
        self.assertEqual(main_test(),0.99)  


if __name__ == '__main__':
    unittest.main()

测试代码运行

覆盖率

posted @ 2021-09-20 01:23  红黄蓝绿红黄绿  阅读(63)  评论(0编辑  收藏  举报