第一次个人编程作业

https://github.com/Ihatelenz/031902444

一、PSP表格

(2.1)在开始实现程序之前,在附录提供PSP表格记录下你估计将在程序的各个模块的开发上耗费的时间。(3')

(2.2)在你实现完程序之后,在附录提供的PSP表格记录下你在程序的各个模块的开发上实际花费的时间。(3')

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划
· Estimate · 估计这个任务需要多少时间 600 600
Development 开发
· Analysis · 需求分析 (包括学习新技术) 240 300
· Design Spec · 生成设计文档 10 10
· Design Review · 设计复审 10 10
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 5 5
· Design · 具体设计 20 60
· Coding · 具体编码 600 750
· Code Review · 代码复审 60 240
· Test · 测试(自我测试,修改代码,提交修改) 60 120
Reporting 报告 60 120
· Test Repor · 测试报告 20 10
· Size Measurement · 计算工作量 30 45
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 10 20
· 合计 1935 2500

二、计算模块接口

计算模块接口的设计与实现过程。设计包括代码如何组织,比如会有几个类,几个函数,他们之间关系如何,关键函数是否需要画出流程图?说明你的算法的关键(不必列出源代码),以及独到之处。(18')

有word、text、ans三个类,
有shuru(),charu(),print(),find()四个函数。
三个类分别保存测试词、待测试文档和输出的答案。
shuru()处理words.txt和org.txt中的数据,并存入word和text类中,find()查找文档中的敏感词并通过charu()存入ans类中,最后通过print()函数输出到ans.txt文档中。

关键函数find()的原理比较简单,是暴力解法,考虑到自己的能力问题,只处理了带有插入字符的敏感词。流程图应该不需要画吧
每次一行待测文字,一个敏感词进入find()函数。一个中文编码三字节,一个英文字母编码一字节,所以分中文敏感词和英文敏感词检测。中文每三个字节检测一次,直到查找出所有的字或者记录到20个无关插入字符,或者待测文字检测完了。英文只有检测的数量不一致,是每一个字节检测一次。查找到了就运用charu()记录下来,然后接着查找,直到待测文字都扫描完。
暴力解法,算法的独到之处大概没有。

计算模块接口部分的性能改进。记录在改进计算模块性能上所花费的时间,描述你改进的思路,并展示一张性能分析图(由VS 2019、JProfiler或者Jetbrains系列IDE自带的Profiler的性能分析工具自动生成),并展示你程序中消耗最大的函数。(12')

性能分析图:


消耗最大的函数find():

void find(word& W, text& T)							//查找对应敏感词段
{
	int i = 0, j = 0;
	int front = 0, back = 0;
	int sum = 0, l = 0;
	int fei = 0;
	string a;
	string  b;
	if (W.flag == 1)								//中文匹配
	{
		front = 0;
		back = 0;
		for (; j < T.str.length(); j++)
		{
			a = W.name.substr(i, 3);				//一个中文编码三字节,每三字节取出配对
			b = T.str.substr(j, 3);
			if (a==b)
			{
				if (i == 0)
				{
					front = j;
				}
				i += 3;
				j += 2;
				if (i == W.name.length())			//一个完整敏感词匹配结束,录入答案
				{
					charu(front, j, W.no, T.no);
					i = 0;
				}
			}
		}
	}
	else											//英文匹配
	{
		front = 0;
		back = 0;
		transform(T.str.begin(), T.str.end(), T.str.begin(), ::tolower);			//待测行和待测敏感词不区分大小写,全部转换成小写
		transform(W.name.begin(), W.name.end(), W.name.begin(), ::tolower);
		for (; j < T.str.length(); j++)
		{
			if (W.name[i] == T.str[j])
			{
				if (i == 0)
				{
					front = j;
				}
				i++;
				if (i == W.name.length())			//一个完整敏感词匹配结束,录入答案
				{
					charu(front, j, W.no, T.no);
					i = 0;
					fei = 0;
				}
			}
			else
				fei++;
			if (fei > 20)							//插入无关字符超过20个,结束匹配
				break;
		}
	}
}

最大占比的函数是查找find()函数,可以写一个tire树,改进查找的过程,加上拼音和汉字的匹配,就可以比较完整地写出敏感词查找的功能,并且减少损耗。

计算模块部分单元测试展示。展示出项目部分单元测试代码,并说明测试的函数,构造测试数据的思路。并将单元测试得到的测试覆盖率截图,发表在博客中。(12')

在网上找了一些c++单元测试的帖子,遗憾的是并没有能透彻地学会,没有能实现单元测试来测试自己的函数。

计算模块部分异常处理说明。在博客中详细介绍每种异常的设计目标。每种异常都要选择一个单元测试样例发布在博客中,并指明错误对应的场景。(6')

输入错误路径:

三、心得

第一次体会自己做出这么复杂功能的程序,但是还是没能完整地做完。看着自己写的bug都改完了,还是很开心的。但是希望在这次的经验后,下次作业能有更精彩的表现。

posted @ 2021-09-16 22:54  Ihatelenz  阅读(77)  评论(0编辑  收藏  举报