第一次个人编程作业

这个作业属于哪个课程 信安1912-软件工程
这个作业要求在哪里 个人项目作业
这个作业的目标 文本相似度,PSP表格,GitHub,单元测试

1. GitHub

2.PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 20 30
· Estimate · 估计这个任务需要多少时间 40 40
Development 开发 400 360
· Analysis · 需求分析 (包括学习新技术) 60 80
· Design Spec · 生成设计文档 20 30
· Design Review · 设计复审 10 10
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 10 10
· Design · 具体设计 50 70
· Coding · 具体编码 300 400
· Code Review · 代码复审 20 10
· Test · 测试(自我测试,修改代码,提交修改) 100 110
Reporting 报告 60 60
· Test Report · 测试报告 20 30
· Size Measurement · 计算工作量 10 20
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 10 10
· 合计 1130 1270

3.计算模块接口的设计与实现过程

核心算法:Jaccard相似度:

  • 通过提取样本描述的关键词,再计算两组关键词的交集并集,从而检测样本描述的重复度,即Jaccard相似度
  • 计算两个集合之间的相似程度,元素的“取值”为0或1
  • 对集合A和B,Jaccard相似度计算如下:Jaccard(A, B)= |A intersectB| / |A union B|相似度数值在[0, 1]之间,当A==B的时候,为1

jieba分词有三种模式,默认是精确模式

  • 精确模式,试图将句子最精确地切开,适合文本分析;
  • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
  • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词;

设计思路:

  • 获取文件
  • 过滤特殊字符
  • 分词并提取关键词
  • 计算及除零处理
  • 得出相似度

4.性能分析图

5.单元测试

样例结果:

6.计算模块部分异常处理

posted @ 2021-09-20 02:55  刘淦彬  阅读(43)  评论(0编辑  收藏  举报