单尾与双尾检验

原文：towardsdatascience.com/one-tailed-vs-two-tailed-tests/

简介

如果你曾经使用内置的 t 检验函数分析数据，例如 R 或 SciPy 中的函数，那么这里有一个问题给你：你是否曾经调整过备择假设的默认设置？如果你的答案是“没有”——或者你甚至不确定这是什么意思——那么这篇博客文章就是为你准备的！

备择假设参数，在统计学中通常被称为“单尾”与“双尾”，定义了控制组和处理组之间差异的预期方向。在双尾测试中，我们评估两组之间是否存在任何均值差异，而不指定方向。另一方面，单尾测试则提出一个特定的方向——控制组的均值是否小于或大于处理组的均值。

选择单尾和双尾假设可能看起来像是一个小细节，但它影响 A/B 测试的每个阶段：从测试规划到数据分析以及结果解释。本文构建了一个理论基础，解释为什么假设方向很重要，并探讨了每种方法的优缺点。

单尾与双尾假设检验：理解差异

为了理解选择单尾和双尾假设的重要性，让我们简要回顾一下 t 检验的基础知识，这是 A/B 测试中常用的方法。与其他假设检验方法一样，t 检验从一个保守的假设开始：两组之间没有差异（零假设）。只有当我们找到强烈反对这个假设的证据时，我们才能拒绝零假设，并得出治疗有影响的结论。

但什么算是“强烈证据”？为了这个目的，在零假设下确定了一个拒绝区域，所有落在这个区域内的结果都被认为是不太可能的，我们将它们作为反对零假设可行性的证据。这个拒绝区域的大小基于一个预定的概率，称为 alpha（α），它代表错误拒绝零假设的可能性。

这与备择假设的方向有什么关系？实际上关系很大。虽然α水平决定了拒绝区域的大小，但备择假设决定了其位置。在单尾测试中，当我们假设一个特定的差异方向时，拒绝区域只位于分布的一个尾部。对于假设的正效应（例如，治疗组的均值高于对照组的均值），拒绝区域将位于右尾，形成右尾测试。相反，如果我们假设负效应（例如，治疗组的均值低于对照组的均值），拒绝区域将被放置在左尾，从而形成左尾测试。

相比之下，双尾测试允许检测任一方向上的差异，因此拒绝区域分布在分布的两个尾部之间。这允许观察任一方向上的极端值，无论是正效应还是负效应。

为了建立直观理解，让我们可视化在不同假设下拒绝区域是如何出现的。回想一下，根据零假设，两组之间的差异应该围绕零中心。得益于中心极限定理，我们还知道这种分布近似于正态分布。因此，对应于不同备择假设的拒绝区域看起来是这样的：

这为什么很重要？

备择假设方向的选择会影响整个 A/B 测试过程，从规划阶段开始——特别是在确定样本量时。样本量是根据测试所需的功效计算的，这是在存在真实差异时检测两组之间差异的概率。为了计算功效，我们检查备择假设下对应于拒绝区域的面积（因为功效反映了在备择假设为真时拒绝零假设的能力）。

由于假设的方向会影响这个拒绝区域的大小，因此双尾假设的功效通常较低。这是因为拒绝区域被分在两个尾部，使得检测任何单一方向上的效应变得更加困难。以下图表说明了两种假设类型的比较。请注意，与双尾假设相比，单尾假设的紫色区域更大：

在实践中，为了保持所需的功效水平，我们通过增加样本量来补偿双尾假设的降低功效（增加样本量可以提高功效，尽管这一过程的机制可能是一个单独文章的主题）。因此，单尾和双尾假设的选择直接影响了测试所需的样本量。

超过规划阶段，备择假设的选择将直接影响结果的分析和解释。有些情况下，一个测试可能使用单尾方法达到显著性，但使用双尾方法则不行，反之亦然。回顾之前的图表可以帮助说明这一点：例如，在双尾假设下，左尾的结果可能显著，但在右尾单尾假设下则不显著。相反，某些结果可能落在右尾单尾测试的拒绝域内，但在双尾测试的拒绝区域外。

如何决定选择单尾还是双尾假设

让我们从底线开始：这里没有绝对的对或错的选择。两种方法都是有效的，主要考虑因素应该是您的具体商业需求。为了帮助您决定哪种选项最适合您的公司，我们将概述每种选择的优缺点。

初看之下，单尾备择假设可能看起来是明显的选择，因为它通常与商业目标更吻合。在工业应用中，重点通常在于提高特定的指标，而不是探索治疗方法在两个方向上的影响。这在 A/B 测试中尤为重要，其目标通常是优化转化率或增加收入。如果治疗方法没有导致显著的改进，那么所考察的变化就不会被实施。

除了这个概念优势之外，我们已提到单尾假设的一个关键好处：它需要的样本量更小。因此，选择单尾备择假设可以节省时间和资源。为了说明这一优势，以下图表显示了不同功效水平（α设置为 5%）下单尾和双尾假设所需的样本量。

在这种情况下，单尾和双尾假设之间的选择在顺序测试中尤为重要——这是一种允许持续数据分析而不增加α水平的方法。在这里，选择单尾测试可以显著缩短测试时间，从而实现更快决策，这在需要迅速响应的动态商业环境中尤其有价值。

然而，不要急于否定双尾假设！它有其自身的优势。在某些商业环境中，能够检测到“负显著结果”的能力是一个主要优势。正如一位客户曾经分享的，他更喜欢负显著结果而不是不确定的结果，因为它们提供了宝贵的学习机会。即使结果并不如预期，他也可以得出结论，治疗方法有负面影响，并深入了解产品。

双尾检验的另一个好处是它们可以使用置信区间（CIs）进行直接解释。在双尾检验中，一个不包括零的置信区间直接表明显著性，这使得从业者可以一目了然地解释结果。这种清晰度特别吸引人，因为置信区间在 A/B 测试平台上被广泛使用。相反，在单尾检验中，一个显著的结果可能仍然包括置信区间中的零，这可能导致对发现结果的困惑或不信任。尽管在一尾检验中可以使用单侧置信区间，但这种做法并不常见。

结论

通过调整单个参数，你可以显著影响你的 A/B 测试：具体来说，你需要收集的样本量和结果解释。在决定使用单尾还是双尾假设时，考虑因素如可用的样本量、检测负面效应的优势以及将置信区间（CIs）与假设检验对齐的便利性。最终，这个决定应该经过深思熟虑，考虑到最适合你的业务需求。

(注意：本帖中所有图像均由作者创建)

posted @ 2026-03-27 10:21 布客飞龙III 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

单尾与双尾检验

单尾与双尾检验

简介

单尾与双尾假设检验：理解差异

这为什么很重要？

如何决定选择单尾还是双尾假设

结论

公告