软件工程第二次作业 3121002015 刘增荣

本项目已上传至仓库

这个作业属于哪个课程	软件工程2024-双学位(广东工业大学)
这个作业要求在哪里	个人项目作业-论文查重
这个作业的目标	代码实现、性能分析、单元测试、异常处理说明、记录PSP表格
其他参考文献	...

本项目已上传至仓库
1.需求
- 题目：论文查重
2.开发环境
3.代码实现
- 运行结果
4.单元测试
- 运行结果
5.性能测试
6.PSP表格

1.需求

题目：论文查重

设计一个论文查重算法，给出一个原文文件和一个在这份原文上经过了增删改的抄袭版论文的文件，在答案文件中输出其重复率。

原文示例：今天是星期天，天气晴，今天晚上我要去看电影。

抄袭版示例：今天是周天，天气晴朗，我晚上要去看电影。

要求输入输出采用文件输入输出，规范如下：

从命令行参数给出：论文原文的文件的绝对路径。

从命令行参数给出：抄袭版论文的文件的绝对路径。

从命令行参数给出：输出的答案文件的绝对路径。

我们提供一份样例(提取码：nwjr)，使用方法是：orig.txt是原文，其他orig_add.txt等均为抄袭版论文。

注意：答案文件中输出的答案为浮点型，精确到小数点后两位

2.开发环境

编程语言	python
开发工具	PyCharm Community Edition 2021.3.2

3.代码实现

import sys

# 从文件中加载文本内容
def load_text(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
    return text

# 计算文本的相似度（基于编辑距离算法）
def calculate_similarity(original_text, plagiarized_text):
    """
    计算两篇文章的相似度（基于编辑距离算法）
    :param original_text: 原文的文本内容
    :param plagiarized_text: 抄袭版的文本内容
    :return: 相似度，范围在0到1之间
    """
    len_original = len(original_text)
    len_plagiarized = len(plagiarized_text)

    dp = [[0] * (len_plagiarized + 1) for _ in range(len_original + 1)]

    for i in range(1, len_original + 1):
        for j in range(1, len_plagiarized + 1):
            if original_text[i - 1] == plagiarized_text[j - 1]:
                dp[i][j] = dp[i - 1][j - 1] + 1
            else:
                dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])

    similarity = dp[len_original][len_plagiarized] / max(len_original, len_plagiarized)
    return similarity

if __name__ == "__main__":
    if len(sys.argv) != 4:
        print("Usage: python plagiarism_checker.py <original_file_path> <plagiarized_file_path> <output_file_path>")
        sys.exit(1)

    original_file_path = sys.argv[1]
    plagiarized_file_path = sys.argv[2]
    output_file_path = sys.argv[3]

    original_text = load_text(original_file_path)
    plagiarized_text = load_text(plagiarized_file_path)

    similarity = calculate_similarity(original_text, plagiarized_text)

    with open(output_file_path, 'w', encoding='utf-8') as output_file:
        output_file.write(f"重复率：{similarity:.2%}")

    print("重复率计算已完成，结果已保存到指定文件中。")

运行结果

4.单元测试

import unittest

# 从文件中加载文本内容
def load_text(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
    return text

# 计算文本的相似度（基于编辑距离算法）
def calculate_similarity(original_text, plagiarized_text):
    len_original = len(original_text)
    len_plagiarized = len(plagiarized_text)

    dp = [[0] * (len_plagiarized + 1) for _ in range(len_original + 1)]

    for i in range(1, len_original + 1):
        for j in range(1, len_plagiarized + 1):
            if original_text[i - 1] == plagiarized_text[j - 1]:
                dp[i][j] = dp[i - 1][j - 1] + 1
            else:
                dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])

    similarity = dp[len_original][len_plagiarized] / max(len_original, len_plagiarized)
    return similarity

class TestPlagiarismChecker(unittest.TestCase):

    def test_load_text(self):
        # 测试加载文本内容函数
        file_path = 'test_file.txt'
        expected_text = "This is a test file for load_text function."
        with open(file_path, 'w', encoding='utf-8') as file:
            file.write(expected_text)

        loaded_text = load_text(file_path)
        self.assertEqual(loaded_text, expected_text)

    def test_calculate_similarity(self):
        # 测试计算相似度函数
        original_text = "apple banana mango"
        plagiarized_text = "banana orange mango"
        # 预期相似度为2/3≈0.6667
        expected_similarity = 0.6667
        # 设置误差范围为0.1，较宽松的范围
        self.assertAlmostEqual(calculate_similarity(original_text, plagiarized_text), expected_similarity, delta=0.1)

if __name__ == '__main__':
    unittest.main()

运行结果

5.性能测试

import time
import random
import string

# 从文件中加载文本内容
def load_text(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
    return text

# 计算文本的相似度（基于编辑距离算法）
def calculate_similarity(original_text, plagiarized_text):
    len_original = len(original_text)
    len_plagiarized = len(plagiarized_text)

    dp = [[0] * (len_plagiarized + 1) for _ in range(len_original + 1)]

    for i in range(1, len_original + 1):
        for j in range(1, len_plagiarized + 1):
            if original_text[i - 1] == plagiarized_text[j - 1]:
                dp[i][j] = dp[i - 1][j - 1] + 1
            else:
                dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])

    similarity = dp[len_original][len_plagiarized] / max(len_original, len_plagiarized)
    return similarity

def generate_random_text(length):
    return ''.join(random.choice(string.ascii_letters) for _ in range(length))

if __name__ == "__main__":
    original_text = generate_random_text(1000)  # 生成长度为1000的随机文本
    plagiarized_text = generate_random_text(1000)  # 生成另一份长度为1000的随机文本

    start_time = time.time()
    similarity = calculate_similarity(original_text, plagiarized_text)
    end_time = time.time()

    execution_time = end_time - start_time
    print(f"相似度计算完成，耗时：{execution_time:.6f} 秒")

6.PSP表格

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划	30	30
Estimate	估计这个任务需要多少时间	20	30
Development	开发	70	100
Analysis	需求分析 (包括学习新技术)	130	160
Design Spec	生成设计文档	20	20
Design Review	设计复审	30	30
Coding Standard	代码规范 (为目前的开发制定合适的规范)	25	30
Design	具体设计	25	20
Coding	具体编码	80	110
Code Review	代码复审	40	25
Test	测试（自我测试，修改代码，提交修改）	90	95
Reporting	报告	90	80
Test Repor	测试报告	95	90
Size Measurement	计算工作量	35	30
Postmortem & Process Improvement Plan	事后总结, 并提出过程改进计划	40	30
	合计	820	860

posted @ 2024-03-16 17:39 lzr。阅读(60) 评论(0) 收藏举报

刷新页面返回顶部

Lzr666

软件工程第二次作业 3121002015 刘增荣

本项目已上传至仓库

1.需求

题目：论文查重

2.开发环境

3.代码实现

运行结果

4.单元测试

运行结果

5.性能测试

6.PSP表格

公告