个人项目

这个作业属于哪个课程	https://edu.cnblogs.com/campus/gdgy/networkengineering1934-Softwareengineering
这个作业要求在哪里	https://edu.cnblogs.com/campus/gdgy/networkengineering1934-Softwareengineering/homework/12137
这个作业的目标	学习查重算法思路、远程仓库连接、单元测试以及性能测试

一、GitHub地址

https://github.com/Inside2099/Inside2099/tree/main/3119005328

二、P2P

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划	10	15
· Estimate	· 估计这个任务需要多少时间	10	15
Development	开发	465	525
· Analysis	· 需求分析 (包括学习新技术)	30	30
· Design Spec	· 生成设计文档	60	60
· Design Review	· 设计复审	60	60
· Coding Standard	· 代码规范 (为目前的开发制定合适的规范)	15	15
· Design	· 具体设计	30	30
· Coding	· 具体编码	180	240
· Code Review	· 代码复审	60	60
· Test	· 测试（自我测试，修改代码，提交修改）	30	30
Reporting	报告	60	60
· Test Report	· 测试报告	30	30
· Size Measurement	· 计算工作量	10	10
· Postmortem & Process Improvement Plan	· 事后总结, 并提出过程改进计划	20	20
Total	· 合计	535	600

三、计算模块接口的设计与实现过程

主方法里通过IOUtils工具类获取源文件和比对文件对应的字符串，然后经过jieba分词库的api调用，将字符串解析成关键词构成的集合。然后通过CosSimilarity类的getSimilarity余弦相似度算法算出源字符串集合和比对字符串集合的余弦值。

余弦相似度算法:

jieba分词库原理:

基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法

jieba分词过程:

加载字典, 生成trie树。
给定待分词的句子, 使用正则获取连续的中文字符和英文字符, 切分成短语列表, 对每个短语使用DAG(查字典)和动态规划, 得到最大概率路径, 对DAG中那些没有在字典中查到的字, 组合成一个新的片段短语, 使用HMM模型进行分词, 也就是作者说的识别未登录词。
使用python的yield 语法生成一个词语生成器, 逐词语返回。

四、计算模块接口部分的性能改进

五、测试代码截图

六、总结

这次的作业难度相当，未够熟练地完成。接下来亟需快速提升能力以完成下次作业

posted @ 2021-09-19 21:48 Madokaa 阅读(44) 评论(0) 收藏举报

刷新页面返回顶部