线性模型统一框架

  1. t检验的线性数学模型
    单样本t检验:假设总体均值为\(\mu\),样本容量为\(n\),样本均值为\(\bar{X}\),样本标准差为\(S\)

模型可以表示为

\[X_i=\mu + \epsilon_i \]

其中\(X_i\)是第\(i\)个观测值,\(\epsilon_i\)是误差项,且

\[\epsilon_i\sim N(0,\sigma^2) \]

检验统计量

\[t=\frac{\bar{X}-\mu}{S/\sqrt{n}} \]

服从自由度为\(n - 1\)\(t\)分布。

独立样本t检验(两样本t检验):设有两组样本,第一组样本\(X_{1i}\)\(i = 1,2,\cdots,n_1\),均值为\(\bar{X}_1\);第二组样本\(X_{2j}\)\(j = 1,2,\cdots,n_2\),均值为\(\bar{X}_2\)​。

假设两组样本分别来自正态分布总体\(N(\mu_1,\sigma^2)\)\(N(\mu_2,\sigma^2)\)(方差齐性假设)。模型可以表示为

\[X_{1i}=\mu_1+\epsilon_{1i}\\ X_{2j}=\mu_2+\epsilon_{2j} \]

其中\(\epsilon_{1i}\)\(\epsilon_{2j}\)是误差项,且\(\epsilon_{1i}\sim N(0,\sigma^2)\)\(\epsilon_{2j}\sim N(0,\sigma^2)\)

检验统计量

\[ t=\frac{(\bar{X}_1 - \bar{X}_2)-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \]

其中\(S_p\)是合并标准差,自由度为\(n_1 + n_2- 2\)

  1. 方差分析的线性数学模型
    • 单因素方差分析:假设有\(k\)个处理组,每个处理组有\(n_j\)个观测值(\(j = 1,2,\cdots,k\))。总观测数\(N=\sum_{j = 1}^{k}n_j\)

模型可以表示为

\[X_{ij}=\mu+\alpha_j+\epsilon_{ij} \]

其中\(X_{ij}\)​是第\(j\)​个处理组的第\(i\)​个观测值,\(\mu\)​是总均值,\(\alpha_j\)​是第\(j\)​个处理组的效应(\(\sum_{j = 1}^{k}\alpha_j = 0\)​),\(\epsilon_{ij}\)​是误差项,且\(\epsilon_{ij}\sim N(0,\sigma^2)\)​。

方差分析的基本思想是将总变异分解为组间变异和组内变异,通过比较它们的大小来判断处理因素是否有显著影响。

  • 多因素方差分析:以两因素方差分析为例,设有因素\(A\)\(a\)个水平,因素\(B\)\(b\)个水平,每个组合\((i, j)\)下有\(n_{ij}\)个观测值。模型可以表示为

\[X_{ij k}=\mu+\alpha_i+\beta_j+(\alpha\beta)_{ij}+\epsilon_{ijk} \]

其中\(X_{ij k}\)是因素\(A\)的第\(i\)个水平、因素\(B\)的第\(j\)个水平下的第\(k\)个观测值,\(\mu\)是总均值,\(\alpha_i\)是因素\(A\)的第\(i\)个水平的主效应,\(\beta_j\)是因素\(B\)的第\(j\)个水平的主效应,\((\alpha\beta)_{ij}\)是因素\(A\)\(B\)的交互效应,\(\epsilon_{ijk}\)是误差项,且\(\epsilon_{ijk}\sim N(0,\sigma^2)\)

  1. 线性回归的线性数学模型
  • 简单线性回归:设自变量为\(x\),因变量为\(y\),样本容量为\(n\)。模型可以表示为

\[y_i=\beta_0+\beta_1x_i+\epsilon_i \]

其中\(y_i\)是第\(i\)个观测值的因变量,\(\beta_0\)是截距,\(\beta_1\)是斜率,\(x_i\)是第\(i\)个观测值的自变量,\(\epsilon_i\)是误差项,且\(\epsilon_i\sim N(0,\sigma^2)\)​。

目标是通过最小二乘法估计\(\beta_0\)\(\beta_1\),使得残差平方和\(\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2\)最小,其中\(\hat{y}_i=\beta_0+\beta_1x_i\)是预测值。

  • 多元线性回归:设自变量为\(x_1,x_2,\cdots,x_p\),因变量为\(y\),样本容量为\(n\)。模型可以表示为

\[y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\epsilon_i \]

同样\(\epsilon_i\sim N(0,\sigma^2)\)

通过最小二乘法估计参数向量

\[\boldsymbol{\beta}=(\beta_0,\beta_1,\cdots,\beta_p)^T \]

使得残差平方和最小。

  1. 广义线性回归的线性数学模型
    • 广义线性模型(GLM)是线性模型的推广。它由三个部分组成:随机部分、系统部分和连接函数。

      随机部分指定了响应变量\(y\)的分布,例如泊松分布(用于计数数据)、二项分布(用于二元数据)等。

      系统部分是线性预测器

      \[\eta=\beta_0+\beta_1x_1+\cdots+\beta_px_p \]

      连接函数\(g\)将线性预测器\(\eta\)与响应变量\(y\)的均值\(\mu = E(y)\)联系起来,即\(g(\mu)=\eta\)

    • 例如,对于二项分布的逻辑回归(广义线性回归的一种特殊情况),设\(y_i\)是二分类变量(\(0\)\(1\)),\(x_{i1},x_{i2},\cdots,x_{ip}\)是自变量。模型可以表示为

\[\text{logit}(p_i)=\beta_0+\beta_1x_{i1}+\cdots+\beta_px_{ip} \]

其中

\[\text{logit}(p_i)=\ln\left(\frac{p_i}{1 - p_i}\right),p_i = P(y_i = 1) \]

是成功的概率。响应变量\(y_i\)服从二项分布\(y_i\sim B(n_i,p_i)\),其中\(n_i\)可以是\(1\)(伯努利分布情况)。

posted @ 2025-01-16 17:18  redufa  阅读(32)  评论(0)    收藏  举报