工程概论第二次作业

个人项目-JAVA实现论文查重算法

作业要求

这个作业属于哪个课程 <工程概论>
这个作业要求在哪里 <个人要求>
这个作业的目标 <了解论文查重算法,学习GitHub项目开发>

一、需求

题目:论文查重
描述如下:
设计一个论文查重算法,给出一个原文文件和一个在这份原文上经过了增删改的抄袭版论文的文件,在答案文件中输出其重复率。
原文示例:今天是星期天,天气晴,今天晚上我要去看电影。
抄袭版示例:今天是周天,天气晴朗,我晚上要去看电影。
要求输入输出采用文件输入输出,规范如下:
从命令行参数给出:论文原文的文件的绝对路径。
从命令行参数给出:抄袭版论文的文件的绝对路径。
从命令行参数给出:输出的答案文件的绝对路径。
我们提供一份样例,课堂上下发,上传到班级群,使用方法是:orig.txt是原文,其他orig_add.txt等均为抄袭版论文。
注意:答案文件中输出的答案为浮点型,精确到小数点后两位

二、开发环境

  • 操作系统:Windows 10 专业版
  • 语言:JAVA
  • JDK:JDK1.8
  • IDE:IntelliJ IDEA 2023.1
  • 依赖外部jar包:汉语言处理包
<dependency>
      <groupId>com.hankcs</groupId>
      <artifactId>hanlp</artifactId>
      <version>portable-1.5.4</version>
    </dependency>

三、PSG表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 30 45
Estimate 估计这个任务需要多少时间 300 250
Development 开发 120 100
Analysis 需求分析 (包括学习新技术) 100 80
Design Spec 生成设计文档 60 40
Design Review 设计复审 20 20
Coding Standard 代码规范 (为目前的开发制定合适的规范) 30 20
Design 具体设计 60 45
Coding 具体编码 100 80
Code Review 代码复审 30 20
Test 测试(自我测试,修改代码,提交修改) 30 30
Reporting 报告 60 60
Test Repor 测试报告 30 20
Size Measurement 计算工作量 30 30
Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 20 20
合计 1020 860

四、GitHub链接

五、计算模块接口的设计与实现过程

5.1、实现算法

  • 使用simHash算法,先将原文档划为向量A,要比较的文档划为向量B,通过文本特征和各个单词的重要性来进行分词,并为每个词加权,然后合并,最后降维得到simHash值。随后将两个simHash值比较差异的位数就可以得到两串文本的差异,差异的位数就是海明距离,海明距离<3的是高度相似的文本。最后再由海明距离计算出相似度,即为两个向量夹角的余弦值,越接近1说明越相似。

5.2、主要模块

  • 整体流程
  • 实现类
    HammingUtil:计算海明距离的类
    simHashUtil:计算simHash值的类
    txtIOUtil:读写txt文件的类
    shortStringException:处理文本内容过短的异常类

六、计算模块部分单元测试展示

  • 测试结果

七、计算模块部分异常处理说明

  • 异常处理类
public class shortStringException extends Exception{

    public shortStringException(String message) {
        super(message);
    }
}
  • 异常结果
posted @ 2023-09-20 20:50  sugarTL  阅读(22)  评论(0)    收藏  举报