如果逻辑回归决策边界失败-该怎么办-
如果逻辑回归决策边界失败,该怎么办?
原文:
towardsdatascience.com/what-to-do-if-the-logit-decision-boundary-fails-b8883e2abacc/
逻辑回归是目前最广泛使用的机器学习模型,用于二元分类数据集。该模型相对简单,基于一个关键假设:存在一个线性决策边界(在更高维特征空间中的一条线或一个面),可以根据模型中的特征将目标变量 y 的类别分开。
简而言之,决策边界可以解释为模型根据预测属于某一类别的可能性,将数据点分配给某一类别的阈值。
下面的图展示了将目标变量分为两个类别的决策边界的示意图。在这种情况下,模型基于一组两个特征(x1 和 x2)。目标变量可以根据特征值清楚地分为两个类别。

然而,在你的日常建模活动中,情况可能看起来与下面的图很相似。

再次强调,这个模型有两个特点。然而,估计的决策边界并不是根据特征来区分数据的。这是与逻辑回归模型相关的一个最大问题,其影响在数据科学家中往往被高度低估。问题源于类别 y=0 和 y=1 在特征空间中的显著重叠,使得决策边界无法干净地将其分开。这种情况在不平衡数据集中很常见,可能导致决策边界倾斜。
在这种情况下,逻辑回归会遇到困难,因为它假设线性可分性。决策边界不会干净地划分类别。这个问题的一个主要后果是特征选择。在特征工程过程中,模型可能会认为没有强可分性的特征不重要或不显著。对于逻辑回归特征选择的典型建议,可以在许多书籍和文章中找到,即递归特征消除。然而,这却是毫无意义的,因为一个简单的事实:当某些变量从模型中移除时,剩余变量的估计参数将相应地改变,参见:
预测变量和目标变量之间的关系通常是相互关联的。简化模型中的系数将不再反映它们在完整模型中的值,最终可能导致对模型参数或预测的偏差解释。此外,在决策边界弱分离的场景下,递归特征消除甚至正则化也不会有帮助。
这个问题的解决办法是什么?
在建模分类数据方面有近 20 年的经验,我建议解决这个问题的最有效方法是使用概率单位回归而不是逻辑回归(logit 模型)。这种方法已被证明非常有效,我在实践中多次测试过它!
与逻辑回归类似,概率单位模型可以用于分类数据建模。而不是逻辑函数

它使用正态累积分布函数

这些模型相当相似,尽管在决策边界方面,通常更倾向于使用概率单位模型而不是 logit 模型,因为概率单位模型假设正态累积分布,这可能导致更自然和更平滑的边界。相比之下,logit 模型的逻辑函数可能产生不太灵活的决策边界,更容易过度拟合或欠拟合,尤其是在数据不适合逻辑转换时。
因此,概率单位模型可以更好地捕捉数据的细微差别,即使在非线性和非正态数据中,也能导致更准确和有意义的决策边界。
让我们考虑以下概率单位模型的潜在变量表示

其中观察到二元变量 y_i 的值,以及解释变量 x_i 的值。然而,潜在数据 z_i 是不可观察的。
模型训练可以通过从两个分布中依次抽取来实现

在哪里

和

使用 TN 表示截断正态分布。
该模型在本文附件的代码中实现。实现展示了模型内建的特性选择机制如何能够识别特征,而不管决策边界是否在特征域中分离类。
在代码中,特征集是通过从正态分布中进行采样创建的。然后,创建一个掩码向量来模拟只有特征子集对数据生成过程相关的情景。在这种情况下,选择了特征 1、3 和 7。使用掩码和β向量中相应的系数,通过选定的特征模拟潜在变量 z。观测变量 y 是从潜在变量 z 导出的。使用 0 作为阈值,如果 z 大于 0,则 y 设置为 1(类别 1),如果 z 小于或等于 0,则 yyy 设置为 0(类别 0)。结果是二进制结果(0 或 1),这对于分类模型来说是典型的,其中结果由潜在变量是否跨越阈值决定。
通过使用具有不明确分离性的特征,我们使模型难以在更大的变量集中识别相关特征,如图所示。箱线图显示了 x1 和 x3 的高度重叠的类别。

可以根据密度和散点图得出类似的结论。


如上所述,代码使用解释变量子集模拟二元分类问题的数据,并测试模型选择过程是否可以识别相关特征。基于随机搜索的特征工程过程已在线性回归模型的情况下进行了描述,然后成功应用于混合回归的高级模型中。
在这种情况下,结果与之前一样好!
模型能够从更广泛的数据集中识别出合适的特征,如图所示。对于 x1、x3 和 x7 的包含概率 MCMC 采样轨迹要么正好是 1,要么大部分是 1,而对于所有其他特征则相对较低。 (在全轨迹中计算的个体概率,包括 10000 次 MCMC 抽取,给出为1.0000 0.1624 0.9752 0.1269 0.2757 0.1839 1.0000 0.1220)。

尽管 x1 和 x3 的分离性较弱,但仍然取得了结果。如图所示,所有真正选定的特征之外的参数都在 0 附近振荡,表明这些变量对我们的目标没有影响!

完整的代码如下所示。
除非另有说明,所有图片均为作者所有。

浙公网安备 33010602011771号