拓端tecdat|R语言辅导分析协变量之间的非线性关系
原文链接:http://tecdat.cn/?p=6366
最近我被问到我的R和Stata软件包是否能够适应协变量之间的非线性关系。答案是肯定的,在这篇文章中,我将说明如何做到这一点。
为了说明,我们将模拟具有两个协变量x1和x2以及连续结果y的非常大的数据集。
因此, 模型的真实系数是0(截距) 。注意,实体模型中没有非线性,但x2对x1的依赖性存在非线性。
输出:
我们看到x1的截距和系数的估计有明显的偏差。假设x2遵循以x1为条件的线性回归模型,smcfcs正在估算x2中的缺失值,条件均值在x1中是线性的。 这样做意味着x2平方会在x2的插补模型中自动调整:
输出:
我们现在估计与数据生成机制中使用的真实值非常接近。
需要注意的一点是,我们已经修改了假设为x2 | x1的模型,但我们还将实体模型(至少是用作插补过程的一部分的模型)修改为包含x1sq的模型。
输出:
这里完全观察到x1。如果x1也有一些缺失值怎么办?然后我们需要告诉smcfcs如何估算x1,然后被动地估算x1sq变量。鉴于我们对真实数据生成模型的了解,我们应该如何归咎于x1? 然而,我们将继续,要求smcfcs使用规范方法来估算x1:
输出:
这个例子也说明了smcfcs的一个理论问题 - 虽然它从一个与指定的实体或结果模型兼容的插补模型中推算每个协变量,但这并不意味着这些插补模型中的每一个都是相互兼容的。具体而言,用于分配其他协变量的模型可能不兼容。
更有效的方法是为数据指定单个联合模型,并在其隐含的条件分布下进行估算。例如,这可以使用JAGS来实现。
如果您有任何疑问,请在下面发表评论。
▍关注我们
【大数据部落】第三方数据服务提供商,提供全面的统计分析与数据挖掘咨询服务,为客户定制个性化的数据解决方案与行业报告等。
▍咨询链接:http://y0.cn/teradat
▍联系邮箱:3025393450@qq.com
浙公网安备 33010602011771号