Pipeline集成运行测试情况

Pipeline集成运行测试报告

开发团队：TeamSHIT

1 测试数据集

为了检验Pipeline Alpha版的开发效果，测试其集成运行情况，我们团队和两个负责开发Crawler的小组协商，制定了一份测试数据集，涵盖问答类网页、文献检索类网页、科普类网页、中英文网页，基本满足Pipeline的测试需求。

该数据集具体包括1个百度知道问答网页、3个计算机领域的文献检索网页、4个百度百科科普网页、4个博客园博问问答网页以及5个伯克利大学相关网页。

Figure 1 Pipeline的主界面以及测试数据集

2 测试情况

本次测试共发现bug4个，其中解决两个，另两个问题Alpha没有在根本上解决，留到Beta版本解决。

3 功能测试

3.1 爬虫文件夹设置问题

测试集：数据存放的文件夹

负责去噪的连昭鹏同学在设计时把爬虫爬取的文件夹存放在F盘根目录下，Pipeline引用这个绝对路径实现对文件的操作(bug1)，但是我觉得这不利于项目集成，而且过多地对用户提要求也不是一种可取的软件开发态度。因此我把这个文件夹放在Pipeline项目工程文件夹里，用相对路径实现对内部文件的操作。

3.2 网页编码问题

测试集：各类网页各1份。测试效果如下：

Figure 2 百度知道网页的去噪结果

Figure 3 文献检索网页的去噪结果

Figure 4 百度百科网页的去噪结果

Figure 5 博客园博问的去噪结果

Figure 6 Berkeley相关网页的去噪结果

可以看到部分网页的去噪效果良好，部分网页的去噪结果直接为空。于是我查看了一下博客园网页的Raw Data，发现它的中文部分出现的都是乱码，出现同样问题的文献检索网页的Raw Data也是同样问题。

Figure 7 博客园博问网页的Raw Data

出现乱码问题是因为在一开始设计时，我们对网页的处理方法是按C#默认的编码方式读写源文件，而网页的普遍编码方式不唯一，因此指定一种编码只能正确处理一部分网页，另一部分的结果变成乱码(bug2)。

解决方法：我们一开始想实现一个编码转换，但是有组员发现如果编码不匹配则Denoising的值一定为空这个特点，我们可以依次按不同的编码分析源文件，如果得到的结果为空则换一种编码分析。目前分析的编码有ANSI、UTF-8，这两种编码已经能正确处理数据集里的五种网页类型，现在的绝大部分网页用上述两种编码也都能解析。

Figure 8 考虑两种编码方式