第一次个人编程作业

Github:https://github.com/jinxiawu/3123004268

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience
这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience/homework/13478
这个作业的目标 掌握博客园和github的基本使用方法

PSP 表格(预估/实际耗时)

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 600 300
Estimate 估计这个任务需要多少时间 600 300
Development 开发 120 240
Analysis 需求分析 (包括学习新技术) 120 80
Design Spec 生成设计文档 40 30
Design Review 设计复审 20 20
Coding Standard 代码规范 (为目前的开发制定合适的规范) 40 60
Design 具体设计 480 300
Coding 具体编码 300 240
Code Review 代码复审 10 01
Test 测试(自我测试,修改代码,提交修改) 60 60
Reporting 报告 60 60
Test Report 测试报告 30 30
Size Measurement 计算工作量 5 5
Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 20 30
合计 1440 600

算法设计

算法思路

1.读入两篇文章并转化为字符串
2.使用正则表达式匹配并去除文章标点符号
3.使用中文分词库HanLP进行文本分词
4.使用余弦相似度算法统计词频并计算出相似度
5.将结果写入目标文件

函数

函数 作用
calculateSimHash 计算SimHash值
calculateHammingDistance 计算海明距离
hash 哈希函数
readTextFromFile 从txt文件中读取内容

流程图

image

性能分析

2951353-20230920220414329-1158406190

单元测试

2951353-20230920222854226-617190371

异常处理
读取文件可能会出现IO异常

2951353-20230920224356888-1670299284

结果

2951353-20230920224548841-217735318

posted @ 2025-09-24 00:27  无尽の夏  阅读(9)  评论(0)    收藏  举报