在绝大多数情况下,我们没有能力去探究严格的因果关系,只好退而求其次,改成通过回归分析,研究相关关系。

回归分析是什么?
想要做到X变化一个单位,Y平均会变化多少?
通过数据拟合模型(我们假设它们之间存在线性关系,模型为 收入 = β₀ + β₁),以理解和量化变量之间关系

这听起来比较悲观?其实不是的。
为什么?因为,这个退而求其次的方案,也比瞎拍脑袋好很多。

思想:
相关性 ≠ 因果性


回归分析的定义和本质

回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析。

Y,X

回归分析是研究 X 和 Y 之间相关性的分析。

在实际应用中, Y 常常是我们需要研究的那个核心变量, X是一个可以知道的输入量。

回归分析的任务就是,通过研究 X 和 Y 的相关关系,尝试去解释 Y 的形成机制,进而达到通过 X 去预测 Y 的目的。

回归分析使命

  • 使命 1 : 回归分析要去识别并判断: 哪些 X 变量是同 Y 真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
  • 使命 2 : 去除了那些同 Y 不相关的 X 变量,那么剩下的,就都是重要的、有用的 X 变量了。 接下来回归分析要回答的问题是:这些有用的 X 变量同 Y 的相关 关系是正的呢,还是负的?
  • 使命 3 : 在确定了重要的 X 变量的前提下,我们还想 赋予不同 X 不同的权重, 也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。

简而言之:回归分析要完成的三个使命:

  • 第一、识别重要变量;
  • 第二、判断相关性的方向;
  • 第三、要估计权重(回归系数)。

数据源

数据的分类:

横截面数据

在某一时点收集的不同对象的数据。

例如:
( 1 )我们自己发放问卷得到的数据
( 2 )全国各省份 2018 年 GDP 的数据
( 3 )大一新生今年体测的得到的数据

时间序列数据

对同一对象在不同时间连续观察所取得的数据。

例如:
( 1 )从出生到现在,你的体重的数据(每年生日称一次 ) 。
( 2 )中国历年来 GDP 的数据。
( 3 )在某地方每隔一小时测得的温度数据。

面板数据

横截面数据与时间序列数据综合起来的一种数据资源。
例如:
2008‐2018 年,我国各省份 GDP 的数据。


分类

有各种各样的回归技术用于预测。这些技术主要有三个度量:

  • 自变量的个数
  • 因变量的类型
  • 回归线的形状

回归分析的分类

分类 模型 Y的特点 例子
线性回归 OLS 、 GLS (最小二乘) 连续数值型变量 GDP 、产量、收入
0‐1 回归 logistic 回归 二值变量( 0‐1 ) 是否违约、是否得病
定序回归 probit 定序回归 定序变量 等级评定(优良差)
计数回归 泊松回归(泊松分布) 计数变量 每分钟车流量
生存回归 Cox 等比例风险回归 生存变量(截断数据) 企业、产品的寿命
...

具体应用——趋势线

趋势线用于以图形方式显示数据趋势和帮助分析预测问题。这种分析也称为回归分析。通过使用趋势线,可以扩展趋势线的图表预测未来值的实际数据。

Excel中提供了6种不同类型的趋势线:

  • 线性趋势线
  • 对数趋势线
  • 多项式趋势线
  • 乘幂趋势线
  • 指数趋势线
  • 移动平均趋势线

线性趋势线
线性趋势线是适用于简单线性数据集的最佳拟合直线。如果数据点构成的图案类似于一条直线,则表明数据是线性的。线性趋势线通常表示事物是以恒定速率增加或减少。

对数趋势线
对数趋势线是数据变化率快速增加或降低,然后达到稳定的情况下使用的最佳拟合曲线。对数趋势线可以同时使用负值和正值。

多项式趋势线
多项式趋势线是一种数据波动的情况下使用的曲线。多项式趋势线很有用,例如,用于通过一个较大的数据集分析盈亏。多项式的次数可由数据的波动次数或曲线中出现弯曲的数目(峰值数和峰谷数)确定。二次多项式趋势线通常仅有一个峰值或峰谷。三次通常有一个或两个峰值或峰谷。四次通常最多有三个峰值或峰谷。

乘幂趋势线
乘幂趋势线是用于比较以特定速度增加的度量单位的数据集的曲线 — 例如,赛车 1 秒的时间间隔的加速。不能创建乘幂趋势线,如果您的数据中包含零或负值。

指数趋势线
指数趋势线是一种数据值以不断增加的速率上升或下降的情况下使用的曲线。如果数据中含有零值或负值,则不能创建指数趋势线。

移动平均趋势线
移动平均趋势线可平滑处理数据的波动以更清楚地显示图案或趋势。移动平均使用特定数目的数据点(由“周期”选项设置),取其平均值,然后将该平均值用作趋势线中的一个点。例如,如果“周期”设置为 2,则前两个数据点的平均值用作移动平均趋势线中的第一个点。第二个和第三个数据点的平均值用作趋势线中第二个点,依此类推…


尝试解答如下问题:

  1. 经济学家研究经济增长的决定因素,那么 Y 可以选取 GDP 增长率 (连续 数值型变量)。
  2. P2P 公司要研究借款人是否能按时还款,那么 Y 可以设计成一个二值变量,Y=0 时代表可以还款, Y=1 时代表不能还款 ( 0‐1 型变量)。
  3. 消费者调查得到的数据( 1 表示非常不喜欢, 2 表示有点不喜欢, 3 表示一般般,4 表示有点喜欢, 5 表示非常喜欢) (定序变量)。
  4. 管理学中 RFM 模型: F 代表一定时间内,客户到访的次数,次数其实就是一个非负的整数。(计数变量)
  5. 研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60 岁,现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的寿命为60+ ,那这种数据就是截断的数据) (生存变量)

如何选择?

在我们的处理中,可选择的越多,选择正确就越难。类似的情况下也发生在回归模型中。

不过一些常见场景里:
如果结果是连续的,就使用线性回归。
如果是二元的,就使用逻辑回归。

在多类回归模型中,基于自变量和因变量的类型,数据的维数以及数据的其它基本特征的情况下,选择最合适的技术非常重要。以下是一些选择回归模型的关键因素:

  1. 数据探索是构建预测模型的必然组成部分
    在选择合适的模型时,比如识别变量的关系和影响时,它应该首选的一步。

  2. 比较适合于不同模型的优点,我们可以分析不同的指标参数
    如统计意义的参数,R-square,Adjusted R-square,AIC,BIC以及误差项,另一个是Mallows' Cp准则。这个主要是通过将模型与所有可能的子模型进行对比(或谨慎选择他们),检查在你的模型中可能出现的偏差。

  3. 交叉验证是评估预测模型最好额方法
    在这里,将你的数据集分成两份(一份做训练和一份做验证)。使用观测值和预测值之间的一个简单均方差来衡量你的预测精度。

  4. 如果你的数据集是多个混合变量,那么你就不应该选择自动模型选择方法,因为你应该不想在同一时间把所有变量放在同一个模型中。

  5. 它也将取决于你的目的
    可能会出现这样的情况,一个不太强大的模型与具有高度统计学意义的模型相比,更易于实现。

  6. 回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。

posted on 2025-11-06 14:36  Mysticbinary  阅读(5)  评论(0)    收藏  举报