软件工程第二次作业

这个作业属于哪个课程	23级计科12班
这个作业要求在哪里	https://edu.cnblogs.com/campus/gdgy/Class12Grade23ComputerScience/homework/13468
这个作业的目标	提高我的项目开发能力，设计并实现一个论文查重系统，通过计算两篇论文的相似度来检测抄袭，继续熟悉Git操作

类结构：
- Main 类：主类，包含程序入口（main 方法）和核心逻辑。
- Logger 内部类：用于打印日志，记录文件读取、分词、TF-IDF 和相似度计算过程。
主要函数：
- main(String[] args)：处理命令行参数，读取文件，调用相似度计算，写入结果。
- readFile(String path)：读取文件内容为字符串。
- calculateSimilarity(String text1, String text2)：计算两文本的相似度。
- segmentText(String text)：使用 HanLP 分词，过滤标点。
- calculateTfIdf(List<String> docWords, List<List<String>> allDocs)：计算 TF-IDF 值。
- cosineSimilarity(double[] vec1, double[] vec2)：计算余弦相似度。
- writeResult(String path, double similarity)：将相似度写入文件。
关系：
- main 调用 readFile 获取文本，调用 calculateSimilarity 计算相似度，最后通过 writeResult 输出。
- calculateSimilarity 依赖 segmentText 进行分词，calculateTfIdf 生成向量，cosineSimilarity 计算相似度。
- Logger 在每个步骤打印详细日志，便于调试。

分词：使用 HanLP 分词工具，将文本拆分为单词，过滤标点（正则表达式 [\\u4e00-\\u9fa5a-zA-Z0-9]+ 只保留中文、字母、数字）。
TF-IDF 计算：
- TF（词频）：单词在文档中的出现次数除以文档总词数。
- IDF（逆文档频率）：log((numDocs + 1) / (docCount + 1))，确保非负。
- TF-IDF = TF * IDF，为每个单词生成权重。
余弦相似度：将 TF-IDF 值转换为向量，计算点积除以模的乘积，得到相似度（0.0 到 1.0）。

posted @ 2025-09-23 23:56 SorrowSquirrel 阅读(12) 评论(0) 收藏举报

刷新页面返回顶部