第一次个人编程作业

| 这个作业属于哪个课程 | 软件工程2024|

| ----------------- |--------------- |

| 这个作业要求在哪里|个人项目|

| 这个作业的目标 |个人进行小程序(或者说具有一定功能的代码)的完整开发流程|
Gitub作业地址

一、PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 30 30
· Estimate · 估计这个任务需要多少时间 60 120
Development 开发 120 150
· Analysis · 需求分析 (包括学习新技术) 120 180
· Design Spec · 生成设计文档 60 120
· Design Review · 设计复审 30 60
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 30 30
· Design · 具体设计 60 120
· Coding · 具体编码 60 120
· Code Review · 代码复审 30 60
· Test · 测试(自我测试,修改代码,提交修改) 90 120
Reporting 报告 60 90
· Test Repor · 测试报告 30 60
· Size Measurement · 计算工作量 30 30
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 15 30
· 合计 825 1320

二、计算模块接口的设计与实现过程

该程序主要是Txt类(文件操作类)和Similarity类(计算两个文档的相似度),两个类的包含函数如图所示,其中Similarity类的关键函数 calTxtSimilar是采用余弦定理计算文本相似度。
本程序通过将不同的文本中词语映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度。本程序采用计算余弦相似度来度量两个文本的相似情况。余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。

三、计算机模块接口部分的性能改进

本程序采用以余弦相似度来进行论文查重,由图可知主要是使用String,HashMap等有关字符串处理的接口,集中在Similarity类,而该类当中其中计算余弦定理也是比较复杂,性能改进可从变换另一个计算相似度的算法,减少运算量和对字符串的操作,但水平有限,在这里无法提出。

四、计算模块部分单元测试

该部分内容采用测试一次程序作为一次对各模块的测试,笔者无法做到实现单元测试需求
测试覆盖率

展示程序中耗时比较长的程序段

五、计算模块部分异常处理说明

在Txt类中,只是对文件操作功能进行简单的异常报错,还无法实现对异常有好的处理方式。

六、总结

这次个人作业完成地比较失败,很多有关软件测试的操作都没有做好,甚至不会做;程序也是一知半解,对算法只是有个大概的印象,自己若是实际操作起来肯定十分苦难。之后要着重训练软件测试的能力以及熟悉对Github的操作。

posted @ 2024-03-14 02:47  RedamancyRose  阅读(9)  评论(0编辑  收藏  举报