结对第二次—文献摘要热词统计及进阶需求

软工实践文献摘要热词统计及进阶需求

写在前面

本次作业链接
结队成员：lc me
队友博客链接（221600103）
Github项目
作业目标：
1.统计文件的字符数
2.统计文件的单词总数
3.统计文件的有效行数
4.统计文件中各单词的出现次数
5.按照字典序输出到文件result.txt
6.接口封装
具体分工：
lc：输入统计字符数分割字符测试
me：统计单词数统计最多的10个单词及其词频输出代码重构与优化

PSP表格

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划	20	20
Estimate	估计这个任务需要多少时间	400	600
Development	开发	520	665
Analysis	需求分析 (包括学习新技术)	30	30
Design Spec	生成设计文档	20	20
Design Review	设计复审	20	25
Coding Standard	代码规范 (为目前的开发制定合适的规范)	20	20
Design	具体设计	20	35
Coding	具体编码	300	400
Code Review	代码复审	20	20
Test	测试（自我测试，修改代码，提交修改）	630	650
Reporting	报告	20	30
Test Report	测试报告	10	10
Size Measurement	计算工作量	10	15
Postmortem & Process Improvement Plan	事后总结, 并提出过程改进计划	20	10
合计		1140	1285

设计实现过程

前期讨论的时候我们将代码功能分为7块，包括：文件导入、单词分割、统计字符数、统计单词数量、行数统计、统计单词词频、结果写入文件。原定每个功能一个函数，但是经过后期具体编程以及反复考虑之后决定将功能划分为5大块：主函数导入文件、字符统计、单词数量统计以及词频统计、行数统计、结果输出。主函数main导入文件后产生一个ifstream对象，通过调用charCount(ifstream，...)字符统计函数、lineCount(ifstream)行数统计、wordCount(...)单词数量统计以及词频统计函数，printResult(...)结果输出函数实现所需功能。

代码整体流程为先读取文件，读取过程中先将特殊符号替换成空格“ ”，同时每读取一个字符就对字符数进行统计，读取的数据存储到vector容器中。单词的数量统计以及词频统计的流程是将vector中的字符转换为小写后读入到string中，在对string进行用空格分割，分割后得到的每个单词存入vector容器中，再对得到的单词进行合法性筛选，过滤掉不符合单词定义的单词。过滤完成之后，开始遍历每个单词，并将单词和出现次数分别作为map的键和值存储，然后通过vector过渡使用sort函数进行词频由高到低、单词按字典排序。一切统计完成后将组织结果输出到result.txt文件中。
排序部分是比较关键的部分，上面提到用map存储单词及其出现次数，这里详细说明如何排序。先把map中的数据放到vector中：
vector wordSort(wordMap.begin(), wordMap.end());
再利用sort（）函数排序：
sort(wordSort.begin(), wordSort.end(), CmpByValue());
CmpByValue结构体中定义次数由大到小和单词按字母表排序：

struct CmpByValue {
		bool operator()(const PAIR& lhs, const PAIR& rhs) {
			if (lhs.second != rhs.second)
			{
				return lhs.second > rhs.second;
			}
			else
			{
				return lhs.first < rhs.first;
			}
		}
};

用例测试： ---

从google scholar上下载了10篇cvpr/iccv文章，组成十个测试用例对代码进行测试，结果如下：
测试样例：

论文样例：

测试过程：

测试结果：

功能测试	测试情况	解决情况
主函数导入文件	导入文件正常
字符统计	字符统计正常
单词数量统计以及词频统计	容器溢出	已解决
行数统计	行数统计正常
结果输出	单词排序有乱序	已解决

性能改进

展示性能分析图和程序中消耗最大的函数

经过性能分析后发现wordCount函数中使用CPU较多：

经过观察，该函数使用大量的字符数组存储，相应地也使用了较多的循环去处理，查看性能分析中占用最多的部分发现是单词过滤部分的二重循环中其中的一个二维数组将字母转换成小写的模块，于是变换存储结构，将wordCount函数中的二维数组换成string或者vector，再将小写的转换移到vector转存string是同步进行，并简化不必要的二重循环之后再进行性能分析。优化前wordCount函数的瓶颈段：