福大软工1816 · 第二次作业 - 个人项目

1.在文章开头给出Github项目地址。

git项目地址：https://github.com/Stellaaa18/personal-project

2.给出PSP表格。

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划	10	15
· Estimate	· 估计这个任务需要多少时间	10	15
Development	开发	360	800
· Analysis	· 需求分析 (包括学习新技术)	90	120
· Design Spec	· 生成设计文档	20	30
· Design Review	· 设计复审	10	10
· Coding Standard	· 代码规范 (为目前的开发制定合适的规范)	10	10
· Design	· 具体设计	20	30
· Coding	· 具体编码	120	240
· Code Review	· 代码复审	30	120
· Test	· 测试（自我测试，修改代码，提交修改）	60	240
Reporting	报告	70	260
· Test Repor	· 测试报告	30	220
· Size Measurement	· 计算工作量	10	10
· Postmortem & Process Improvement Plan	· 事后总结, 并提出过程改进计划	30	30

|       | 	合计  |440 |1075

3.解题思路描述。即刚开始拿到题目后，如何思考，如何找资料的过程。

程序要求读入一个文本文件，统计该文件的字符数，单词数，有效行数以及输出词频最高的10个单词。我是用正则表达式做的，按行从文件读取内容，每当匹配到一个符合条件的单词时，就将其存进map里面。然后遍历map，将单词及其出现次数放到vector里面，排序输出词频最高的10个单词。

4.设计实现过程。设计包括代码如何组织，比如会有几个类，几个函数，他们之间关系如何，关键函数是否需要画出流程图？单元测试是怎么设计的？

关于代码结构

第一次写的时候，我是分成了以下几个函数,写在同一个源文件里面。

CountChar() : 用于统计文件的字符个数
CountLines() : 统计文件的有效行数
CountWords() : 统计有效单词个数
WordsFrequency() : 统计各个单词出现的次数，并将词频最高的10个单词输出到result.txt文件中

后面看到接口封装的要求，参考了赵畅同学的代码组织结构。

工程框架图如下：

设计的单元测试如下：

单元测试名称	测试内容	测试函数	测试结果
AllEmptyChar	统计空白字符（空格，换行符，制表符）	CountChar()	通过
OtherASCII	统计非数字字母的ascii码符号	CountChar()	通过
IncludeEmptyLines	统计含有空行的文件的行数	CountLines()	通过
NotValidWords	文本都是无效单词（例如abc，123file）	CountWords()	通过
WordSperator	分隔符是其他ascii字符（例如"?","!","$"）	CountWords()	修改后通过
EmptyFile	测试空文件	CountChar(),CountLines(),CountWords()	通过
CaseInsentitive	测试是否不区分大小写（file和FILE为同一个单词）	WordsFreq()	通过
CheckOrder	词频相同时是否按字典序	WordsFreq(),TopTenWords()	通过

以下部分单元测试代码：

namespace EmptyFile//测试空文件
{
	TEST_CLASS(UnitTest1)
	{
	public:

		TEST_METHOD(TestMethod1)
		{
			char filename[105] = "EmptyFile.txt";
			int characters = CountChar(filename);
			int lines = CountLines(filename);
			int words = CountWords(filename);
			Assert::IsTrue(characters == 0 && lines == 0 && words == 0);
		}
	};
}

extern map<string, int> M;
namespace CaseInsentitive //测试是否不区分大小写
{
	TEST_CLASS(UnitTest1)
	{
	public:

		TEST_METHOD(TestMethod1)
		{
			char filename[105] = "CaseInsentitive.txt";
			init();
			WordsFreq(filename);
			map<string, int>::iterator it = M.begin();
			Assert::AreEqual(it->second, 3);
		}

	};
}

5.记录在改进程序性能上所花费的时间，描述你改进的思路，并展示一张性能分析图（由VS 2017的性能分析工具自动生成），并展示你程序中消耗最大的函数。

将main()函数循环执行10000次，得到的结果如下：

程序一共运行了44.21秒，消耗最大的是CountWor（）函数。从这张图可以看到，正则表达式有关的函数regex_serch和迭代器matcher消耗的时间也很大，紧跟在main()函数之后。
从下图可以看出，CountWord()函数里面有很多和正则表达式相关的操作，故而消耗的时间大。

代码覆盖率截图

从图中可以看出，除了分析命令行参数的函数AnalyseParameter(int argc, char **argv)代码覆盖率较低外，其他的覆盖率都很高。因为AnalyseParameter(int argc, char **argv)主要用来处理异常情况，而测试时用的样例大部分传参是正确的，故该函数覆盖率较低。

6.代码说明。展示出项目关键代码，并解释思路与注释说明。

在计算单词频率时，用到了正则表达式，参考了这篇文章C++语言，统计一篇英文文章中的单词数（用正则表达式实现）
具体代码如下：

	string str;
	regex rx("\\b[a-zA-Z]{4}[a-zA-Z0-9]*");//至少以四个英文字母开头
	while (getline(file, str)) {
		smatch m;
		while (regex_search(str, m, rx)) {
			string s = m[0];
			for (int i = 0; s[i] != '\0'; i++) {
				if (s[i] >= 'A'&&s[i] <= 'Z') s[i] += 32;//大写转小写
			}
			M[s]++;//将转换成小写的有效单词存进map里
			str = m.suffix().str();
		}
	}

然后将map里的内容复制到vector里面，直接排序输出前10个词。

for (auto x : M) {
		ans.push_back(x);
	}
	sort(ans.begin(), ans.end(), cmp);//排序
	int count = 10;
	//输出词频最高的10个单词
	ofstream fout("result.txt");
	for (auto x : ans) {
		if (!count) break;
		fout << "<" << x.first << ">: " << " " << x.second << endl;//输出到文件
		count--;
	}
	fout.close();

异常处理

int AnalyseParameter(int argc, char **argv)
{
	if (argc != 2) { //传入参数有误时，会给出提示
		cout << "argument error.\n";
		return -1;
	}
	ifstream fin(argv[1]);
	if (!fin) { //若该文件不存在，也会报错
		cout << "can't open the file.\n";
		return -1;
	}
	
	return 1;
}

7.结合在构建之法中学习到的相关内容与个人项目的实践经历，撰写解决项目的心路历程与收获。

一开始拿到题目时，其实是有点慌的，不知道要从哪里开始做。后面冷静下来，一步步分析，先把主要核心功能细分成统计字符数，行数，单词数及计算词频四个部分，一个个写出来。后面再写个函数解析命令行参数，至此基本功能都已经完成了，然后就剩下单元测试和性能改进了。
这次项目最大的收获就是，遇到难题不应该害怕，分成一个个更小的任务，逐个去解决，好像也没想象中那么困难。

8.Refrence

用正则表达式统计单词数: https://www.bbsmax.com/A/A2dmM8qgde/
赵畅同学博客: http://www.cnblogs.com/ZCplayground/p/9607027.html

posted @ 2018-09-12 22:03 __Stella 阅读(331) 评论(0) 收藏举报

刷新页面返回顶部

__Stella