[转载]测试中的随机性

测试中的随机性

本文摘自 MSDN
作者:James McCaffrey

*
本页内容
生成统一的随机数字
分析模式随机性
混排项目列表
生成正态/高斯数字
总结




创建和使用随机测试用例数据是一项基本的软件测试技能。尽管多数测试用例数据由所测试系统的特定输入数据以及特定预期值/状态组成,但您几乎始终都想让系统也受到随机测试用例输入数据的测试。通常,您这样做是为了了解向应用程序发送大量不同的输入数据是否会导致系统崩溃或引发异常。在本月的专栏中,我将阐述在 Microsoft® .NET Framework 环境中处理随机测试用例数据时的四个常见任务:

生成伪随机数字(Knuth 算法)

分析模式随机性(Wald-Wolfowitz 检验)

混排项目列表(Fisher-Yates 算法)

生成高斯数字(Box-Muller 算法)

让我们看一下图 1 中的示例。输出的第一部分显示了使用 .NET Framework 的 Random 对象生成基本随机数字的结果。尽管您可能很熟悉此方法,但我还是要指出如何避免常见缺陷。输出的第二部分体现了一个非常实用但却鲜为人知的方法,该方法用来分析由任意符号组成的模式是否具备随机性。通常,该方法广泛应用于软件开发中,而不只是应用于测试方面。图 1 的第三部分表明了混排项目列表的结果,该结果异常错综复杂。

.

图 1 随机方法演示

我将详细说明为什么许多混排实现方法表面上似乎正确,而事实上却完全错误。图 1 中输出的最后一部分表明了生成按正态钟形曲线分布的一组数字的结果。除了是一种非常实用的方法之外,该算法的实现细节凭其自身的性能而得以关注,将成为您个人编码工具箱的一个有价值的补充部分。

生成统一的随机数字

随机测试用例生成中的最基本任务是生成一个某特定值域内的随机数字(整数或浮点数)。这通常通过 System.Random 类来实现。假定有以下代码:

Random objRan = new Random(5);
int n = objRan.Next(7);
Console.WriteLine("[0,6] 值域中的随机整数是 " + n);

n = objRan.Next(3, 13);
Console.WriteLine("[3,12] 值域中的随机整数是 " + n);

以 Random 对象为例,传入一个种子值(在本例中为 5)。该种子值用于为表现出真正随机数字许多特性的某个数字序列设置起点。序列是确定的(这些数字是从输入种子值或序列中前几个数字时所用的数学公式而生成),因此由 System.Random 生成的数字从技术角度来讲是伪随机数字,但在非正式使用情况下或上下文明确时,通常将其称为随机数字(如此例所示)。我选择的种子值具有任意性。如果我使用不接受种子值的重载 Random 构造函数,则将使用从系统时钟派生的值。如果在随后测试运行时,您需要重新创建随机数字序列(通常情况是这样),则应提供一个种子值。有关伪随机数字生成器种子值的讨论是一个重要且复杂的主题,抱歉的是,它不在本专栏的讨论范围内。

生成随机整数的最简单方法是调用 Random.Next 方法,传入单个整数参数。返回值是伪随机列表中的下一个整数,此值大于或等于 0 且绝对小于该参数。因此,以下调用将返回一个介于 0 和 9 之间(包括 0 和 9)而不是介于 0 和 10 之间(包括 0 和 10)的数字:

   int n = objRan.Next(10);

Random.Next 方法的重载将接受两个整数参数并返回一个大于或等于第一个参数且绝对小于第二个参数的整数。如果您要模拟的测试用例数据类似于滚动的普通六面骰子,要得到一个介于 1 和 6 之间(包括 1 和 6)的随机数字,则调用可能如下所示:

int roll = objRan.Next(1, 7);

这很容易从某数组生成一个随机选取项:

string[] items = new string[] { "alpha", "beta", "gamma", "delta" };
Console.WriteLine("{ 'alpha', 'beta', 'gamma', 'delta' } 的" +
"随机成员是 " +
items[objRan.Next(items.Length)] );

如果数组大小为 N,则调用 objRan.Next(N) 所生成的返回值将是值域 [0, N-1] 内的一个整数(该值域完全对应于数组的索引值)。请注意,该方法也可用于 ArrayList 对象,而且事实上也可用于任何以 0 为基数的索引化集合。

在后台,重载的 Random.Next 方法将使用 Knuth 伪随机数字生成方法。这也称作“相减法”。Knuth 在《The Art of Computer Programming》(计算机程序设计艺术)(Addison-Wesley, 1981) 第 2 卷的“Seminumerical Algorithms”(半数值算法)中发表了此算法。生成统一的伪随机数字相当有难度,但幸好 .NET Framework 会负责为您实现 Knuth 算法。

大约在首次开发 .NET Framework 时,Matsumoto 和 Nishimura 就发现了一种新的伪随机数字生成算法。他们的算法一般被称作 Mersenne Twister(马其赛特旋转)方法,并正因其通常所具有的卓越性能和数学特性而迅速取代原来的伪随机数字生成算法。请参阅“Mersenne Twister:A 623-Dimensionally Equidistributed Uniform Pseudo-Random Number Generator”,《ACM Transactions on Modeling and Computer Simulation》(美国计算机学会模型和计算机仿真汇刊),第 8 卷,第 1 号,1998 年 1 月。

生成伪随机浮点数与生成伪随机整数类似。假定有以下代码:

double x = (6.25 * objRan.NextDouble()) + 1.50;
Console.WriteLine("[1.50,7.75) 值域中的随机双精度值是 " +
x.ToString("0.00"));

对 Random.NextDouble 的调用将返回一个大于或等于 0.0 且绝对小于 1.0 的数字。要生成在值域 [下限值,上限值) 之内(其中,两个括号符号表示大于或等于“下限值”且绝对小于“上限值”)的浮点型数字,则可使用小型公式:

double result = ((high-low) * objRan.NextDouble()) + low;

因为除 0.0 外,大多数浮点型数值都为近似值,所以从技术上说,您不能在包含端点值的值域 [下限值,上限值] 内生成浮点型数字,而必须将其改为不包含端点值的值域 [下限值,上限值)。该公式与接受完整值域的 Next 重载中所用的公式几乎相同,只不过转换为整数的结果不同。


分析模式随机性

有时候,您可能需要检查某个测试用例输入或输出模式,以证明它是随机生成的(例如,检验并确定某一赌博模拟事实上正输出随机结果)。有几个统计方法可用于实现此目的,但最简单的是 Wald-Wolfowitz 检验。该检验有时称为单样本游程检验(其中,“游程”为一连串相同数字或字符)。Wald-Wolfowitz 检验适用于由两个符号组成的序列,例如:

A B B A A A B B B A B B

其中的原理是,对于模式中指定数量的每个符号类型(共两个符号类型),如果符号为随机生成(在本例中,意味着模式中每个位置出现 A 或 B 的几率各为 50%),则您可计算该模式中的预期游程数。模式游程是一个由相同符号类型组成的序列。因此,在刚才所示的模式中,共有六个游程:A、BB、AAA、 BBB、A、BB。如果模式中的实际游程数过大或过小,则证明该模式不是随机生成。

尽管 Wald-Wolfowitz 检验仅适用于只包含两种符号类型的模式,但您通常可以将任意模式映射为 Wald-Wolfowitz 形式。例如,如果您有一个 {7, 9, 3, 4, 1, 6} 之类的整数序列,则可以算出其平均值为 (5.0),然后将该序列映射到符号 H 和 L,其中 H 代表大于该平均值的数,而 L 代表小于该平均值的数:H H L L L H。如果您需要分析更复杂的模式,则可以使用 Chi-Square 检验或 Kolmogorov 检验之类的一些检验方法。

现在,让我们假设 n1 是某模式中第一种符号的数量,而 n2 是第二种符号的数量。则随机生成模式中的预期游程数 µ 为:

µ = 1 + ((2*n1*n2) / (n1 + n2))

而方差 α2 由下式算出:

α2 = ((2*n1*n2) * (2*n1*n2 - n1 - n2)) / ((n1 + n2)2 * (n1 + n2 - 1))
这两个公式均根据概率论得出。我们可以用平均值和方差来确定某个特定模式是随机过程结果的概率。假设我们以两个符号的模式开始,该模式表示为以下字符串: 
string s = "XOOOXXXXOXXXXXXXOOOOXXXXXXXXXX";

尽管可以手动计算该模式中 X 和 O 的数量以及游程数,但让我的程序代劳会更轻松。首先,我将确定该模式字符串中的两个符号类型:

char kind1 = s[0], kind2 = s[0];
for (int i = 0; i < s.Length && kind1 == kind2; ++i)
{
if (s[i] != kind1) kind2 = s[i];
}

我将模式字符串中的第一个字符指定给第一种符号,接着扫描整个模式字符串,直到找到第二种符号类型。接下来,将执行两项简单的错误检查,以确保该模式中至少存在两种不同字符并且存在的字符类型不超过两种。

if (kind2 == kind1)
throw new Exception("字符串必须具有两种不同的类型");

for (int i = 0; i < s.Length; ++i)
if (s[i] != kind1 && s[1] != kind2)
throw new Exception("字符串只能具有两种类型");

如果要考虑性能,则可将这三次对模式字符串的遍历重新转换为仅仅一次遍历,但清晰性可能会受到一些影响。

现在,我就可以开始计算模式中每种类型符号的数量以及游程数了:

int n1 = 0, n2 = 0, runs = 1;
for (int i = 0; i < s.Length-1; ++i)
{
if (s[i] == kind1) ++n1;
else if (s[i] == kind2) ++n2;
if (s[i+1] != s[i]) ++runs;
}
if (s[s.Length-1] == kind1) ++n1;
else if (s[s.Length-1] == kind2) ++n2;

我从第一个字符开始扫描该模式,一直持续到倒数第二个字符。如果当前字符与我先前确定的符号类型匹配,则我将递增相应的计数器。为计算模式中的游程数,我利用了游程取决于符号类型的变化的这样一个事实。如果当前字符与下一个字符不同,则我就知道又出现一个游程,然后我将相应递增游程计数器。由于我在模式字符串中的倒数第二个字符处停止,因此最后我要检查最后一个字符。我还会从 1(而不是 0)开始累计游程计数器,因为根据定义,所有模式都至少具备一个游程。

Wald-Wolfowitz 检验方法仅在所分析模式中每种类型符号的数量为 8 或大于 8 时才有效,因此我将执行以下检查:

if (n1 < 8 || n2 < 8)
throw new Exception("n1 和 n2 必须均大于等于 8," +
"本次测试才有意义");

分析过程进行到这时,我已算出模式中两种符号类型中每一种的数量以及实际游程数。现在,如果两个符号类型是随机生成,则我将计算模式中的预期游程数:

double expectedRuns = 1 + ((2.0*n1*n2) / (n1 + n2));

然后我将计算游程数的方差(如果随机生成),如下所示:

double varianceNumerator = (2.0*n1*n2) * (2.0*n1*n2 - N);
double varianceDenominator = (double)((N*N)*(N-1));
double variance = varianceNumerator / varianceDenominator;

分析中的下一步是计算标准化检验统计量 z:

double z = (R - expectedRuns) / Math.Sqrt(variance);

z 统计量等于模式中的实际游程数减去模式中的预期游程数,然后再除以预期游程数的标准偏差(即方差的平方根)后所得到的值。解译模式中的标准化游程数要比解译实际游程数容易。解译代码很简单,但在概念上稍微有些隐晦。它的开头如下所示:

if (z < -2.580 || z > 2.580)
{
Console.Write("充分证明 (1%) 模式不是随机生成的:");
Console.WriteLine(z < -2.580 ? "游程太少。" : 游程太多。");
}

我以百分之一的显著性水平执行了一次所谓的双侧检验。如果标准化检验统计量的绝对值大于 2.580,则不严格地说,这意味着所分析模式由随机过程生成的几率不到百分之一。值 2.580 源自统计表。如果检验统计量为负值,则实际游程数小于预期游程数,反之亦然。在图 2 中,我也在查找证明该模式不是随机生成的不充分证据。请注意,您在任何时候都不能肯定地说给定模式是随机生成的;您只能通过检验来了解是否存在统计证据来证明该模式不是随机生成的。


混排项目列表

让我们讨论一下混排项目列表。如果您有一个测试用例输入集合并且想以随机顺序将其全部输送到所测试系统中,则混排项目列表很有用。您可以将混排列表看作是生成项目的随机排列。这个异常棘手的问题曾是大量研究工作的主题。最佳的通用混排算法称为 Fisher-Yates 算法。有时候也称之为 Knuth 混排算法。这种算法极其简单。假设有一个项目数组:

string[] animals = new string[] { 
"ant", "bat", "cow", "dog", "elk", "fox" };

如果用 Fisher-Yates 算法的最常用形式来混排这列动物,将得到以下内容:

for (int i = 0; i < animals.Length; i++)
{
int r = objRan.Next(i, animals.Length);
string temp = animals[r];
animals[r] = animals[i];
animals[i] = temp;
}

我迭代要混排的数组的每一个索引。我在当前索引和数组结尾之间选择一个随机位置,然后交换当前索引和随机索引处的项目。不正确的混排算法非常常见。下面的例子就特别棘手。考虑一下此尝试:

for (int i = 0; i < animals.Length; i++)
{
// int r = objRan.Next(i, animals.Length); // 正确
int r = objRan.Next(0, animals.Length); // 不正确
string temp = animals[r];
animals[r] = animals[i];
animals[i] = temp;
}

此代码将生成并执行,但最终所得的重排列表将偏向于项目的某些种排列。为例示这种情况,假设要混排的原始列表中只有三个项目,即 {ABC}。混排的目的是产生这三个项目的随机排列,其中每种排列的产生几率都均等。图 3 中的表显示了使用刚才所示的不正确混排算法后产生的所有 27 种可能的结果。

图 3 中的表中的第一行表示,第一次迭代整个混排循环时,i 的值为 0,并且随机索引 r 的值为 0。由于初始列表为 {ABC},因此交换后的列表仍为 {ABC}。第二次迭代时,i 为 1 且随机索引为 0。交换后,列表现在为 {BAC}。最后一次迭代时,i 为 3 且随机索引为 0。交换后,最终列表排序为 {CAB}。这三个项目存在六种可能的最终排列。如果您要计算图 4 的表中每个结果出现的次数,则将得到以下结果:

{ABC} = 4 次
{ACB} = 5 次
{BAC} = 5 次
{BCA} = 5 次
{CAB} = 4 次
{CBA} = 4 次

换言之,并不是所有排列的产生几率都相等。请注意,A 在第一个位置出现 9 次,B 在第一个位置出现 10 次,C 在第一个位置出现 8 次。如果在赌博游戏模拟中使用这种不正确的混排算法,则会产生严重的问题。

如果使用正确的混合算法,您最终可能得到的结果如图 4 中所示(注意 r 值从来不小于 i 值)。此时,这三个项目的六种可能的最终排列中每一种排列的产生概率都是相等的,某字母出现在某特定位置的概率也是相等的。同时还要注意,不需要进行第三次遍历,因为它只会与自己交换数组中的最后一个值。因此,正确算法中的循环可转到 animals.Length - 1 而不是 animals.Length。


生成正态/高斯数字

我将在本月专栏中演示的第四种方法是从钟形分布(通常称为正态或高斯分布)中生成数字。

假设您要生成一些与一组人身高相对应的测试用例输入数据。可通过一种称为 Box-Muller 算法的非常巧妙的方法来生成正态分布的伪随机数字。用于创建图 1 中所示输出的代码的开头如下所示:

Gaussian g = new Gaussian();
double ht;
int outliers = 0;
Console.WriteLine("从平均值为 68.0 英寸、标准偏差为 6.0 英寸的" +
"正态/高斯分布生成 " +
"100 个随机身高 ->");

我以一个程序定义的高斯对象为例。此对象执行所有工作并使用 Box-Muller 算法。可变身高将受一个正态分布值的约束。我还会初始化一个计数器以跟踪非正常值,即那些远高于或远低于平均身高的值。跟踪非正常值使我起码可以验证我的随机身高事实上是正态分布的。图 5 列出了生成并显示我的随机身高的代码。

我每隔 10 个值就用模数 (%) 运算符打印一个新行,只是为了保持输出整齐。来自平均值为 68.0 英寸、标准偏差为 6.0 英寸的正态分布随机身高通过 Gaussian.NextGaussian2 方法的调用返回,我稍后将对此详细说明。我通过监控小于 56 英寸或大于 80 英寸的值来跟踪非正常值。这些值是高于或低于平均值 68.0 英寸两个标准偏差(6.0 * 2 = 12.0 英寸)的值。据统计,随机生成值超过平均值两个正(或负)标准偏差的概率大约有 5%。因此,如果生成 100 个随机身高(就像我现在这样),则可以预期约有 5 个非正常值。如果得出的非正常值远多于或远少于 5 个,则就需要仔细检查代码。请注意,在图 1 所示的运行示例中,我刚好得到 5 个非正常值,这使我更加确信我的随机生成的身高数据点实际上是正态分布的。

Box-Muller 算法隐含的原理非常深奥,但结果却是相当简单。如果您在 [0,1) 值域内有两个一致的随机数字 U1 和 U2(如本专栏中第一部分所述),则您可以使用以下两个等式中的任一个算出一个正态分布的随机数字 Z:

Z = R * cos( θ )
or
Z = R * sin( θ )

其中,

R = sqrt(-2 * ln(U2))
and
θ = 2 * π * U1

正态值 Z 有一个等于 0 的平均值和一个等于 1 的标准偏差,您可使用以下等式将 Z 映射到一个平均值为 m、标准偏差为 sd 的统计量 X:

X = m + (Z * sd)

以 NextGaussian 方法实现高斯类的最简单方法由图 6 中的代码表示。

我使用的是 Math.Cos 版本,但我本完全可以轻松地使用 Math.Sin 版本。该实现代码虽然可行,但效率很低。由于 Box-Muller 算法可利用 sin 或 cos 中的任一个函数计算正态分布的 Z 值,因此我倒不如同时计算两个 Z 值,保存第二个 Z 值,然后在第二次调用 NextGaussian 方法时可以检索所保存的值。此类实现方法如图 7 所示。

尽管该方法可行性很好,但也存在一些低效性。使用 Math.Sin、Math.Cos 和 Math.Log 方法进行计算会降低性能。一种提高效率的巧妙方法是使用数学技巧。如果您检查一下 R 和 θ 的定义,会发现它们与某单位圆内某随机点的极坐标相对应。该数学技巧就是计算单位正方形内某随机点的坐标(避免了调用 Math.Sin 和 Math.Cos 方法)并确定该随机点是否在单位圆范围内。如果是这样,我们就可以使用这组坐标;如果不是这样,则我们可计算一组新的随机坐标,然后重试一次。约有 78% 的随机生成坐标都在单位圆范围内,这提供了更好的性能,但显然要影响到清晰性。

图 8 中例示了单位正方形技巧。Box-Muller 基本算法将选择一个极坐标为 (R, θ) 并保证在单位圆范围内的点。您也可以在包围单位圆的单位正方形内选择矩形坐标;点 (x1, y1) 在单位圆范围内,但是点 (x2, y2) 则在单位圆范围之外。图 9 说明了单位正方形方法的实现。

.

图 8 单位正方形技巧

在软件测试场景中,性能通常不是主要的考虑因素,因此我所提到的三种实现方法都适用。但在软件开发中,特别是在进行模拟时,性能就成为一个主要问题。尽管 Box-Muller 算法执行起来既高效又相对简单,但是也有其他替代算法可生成正态/高斯伪随机数字。有一种高效的替代方法称为 ziggurat 方法。


总结

让我进行一下简单总结。生成随机测试用例输入数据是基本的软件测试技能。.NET Framework 包含一个 System.Random 类,可用于生成某一特定值域内的统一分布的整数型或浮点型伪随机数字。需要注意的主要问题就是要确保正确指定值域的端点值。

可使用 Wald-Wolfowitz 检验方法来分析包含两个符号的模式以证明它是随机生成的模式。您可使用此检验方法分析随机测试用例输入数据或分析所测试系统的输出数据。

最佳通用混排算法称为 Fisher-Yates 算法。它非常简单并且几乎不需要使用另一种方法。但即使正确算法中存在一丝微小偏差都可能导致算法看似正确但却存在重大错误。

可使用 Box-Muller 算法生成正态分布的伪随机数字。Box-Muller 算法隐含的数学原理非常深奥,但实现过程却异常简单。有几种方法可用于实现 Box-Muller 算法,但都以降低效率来提高清晰性。

请将您的疑问和意见通过 testrun@microsoft.com 发送给 James。

James McCaffrey 博士供职于 Volt Information Sciences Inc.,在那里他负责管理 Microsoft 的软件工程师的技术培训。他已经为多种 Microsoft 产品效过力,包括 Internet Explorer 和 MSN Search。可通过 jmccaffrey@volt.comv-jammc@microsoft.com 与 James 联系。

本文摘自 MSDN

posted @ 2007-04-06 14:26  xerwin  阅读(973)  评论(3编辑  收藏  举报