线性回归

一、线性回归的基本概念
线性回归是一种通过线性模型来建立自变量（特征）和因变量（目标）之间关系的方法。
简单线性回归：只有一个自变量，模型为：y = θ0 + θ1x
多元线性回归：有多个自变量，模型为：y = θ0 + θ1x1 + θ2x2 + ... + θnxn

二、损失函数
通常使用均方误差（MSE）作为损失函数，来衡量预测值与真实值的差异。
MSE = (1/m) * Σ(真实值 - 预测值)^2 （m为样本数量）
损失函数越小，模型拟合得越好。

三、梯度下降算法
梯度下降是一种优化算法，用于找到使损失函数最小化的参数θ。
步骤：
a. 初始化参数θ（通常初始化为0或随机值）
b. 计算损失函数关于每个参数的梯度（偏导数）
c. 更新参数：θ = θ - 学习率 * 梯度
d. 重复b和c直到收敛或达到迭代次数

四、评估指标
均方误差（MSE）：
MSE = (1/m) × Σ(y_true - y_pred)²
特点：对异常值敏感
范围：0到+∞，越小越好
均方根误差（RMSE）：
MSE的平方根
特点：与目标变量单位相同
范围：0到+∞，越小越好
平均绝对误差（MAE）：
MAE = (1/m) × Σ|y_true - y_pred|
特点：对异常值不如MSE敏感
范围：0到+∞，越小越好
R平方（R²）：
R² = 1 - (SS_res / SS_tot)
表示模型解释的方差比例
范围：0到1之间，越大越好
调整R²：
Adj_R² = 1 - [(1-R²)(m-1)/(m-n-1)]
m样本数量，n特征数量
特点：惩罚多余特征，防止过拟合

五、多元线性回归
多个特征时的线性回归。注意：特征之间可能存在量纲差异，需要进行特征缩放（归一化/标准化）。
模型：y = θ0 + θ1x1 + θ2x2 + ... + θn*xn
矩阵表示：Y = Xθ，其中X是包含一列1（对应θ0）的特征矩阵。

六、正则化
为了防止过拟合，我们在损失函数中加入正则项。
岭回归（L2正则化）：
在损失函数中加入θ的平方和（不包括θ0），即λΣθ_i^2 (i从1到n)
特点：缩小所有系数，但不为零
适用：多重共线性严重时
Lasso回归（L1正则化）：
在损失函数中加入θ的绝对值之和（不包括θ0），即λΣ|θ_i| (i从1到n)
特点：将某些系数压缩为零，实现特征选择
适用：特征数量很多时

七、多项式回归
通过引入特征的高次项来拟合非线性关系。例如：y = θ0 + θ1x + θ2x^2
注意：多项式回归仍然是线性回归的一种，因为相对于参数θ是线性的。

八、模型假设和注意事项
线性关系：自变量和因变量之间存在线性关系。
独立性：误差项之间相互独立。
同方差性：误差项具有常数方差。
正态分布：误差项服从正态分布。
多重共线性：在多元线性回归中，特征之间不应有高度相关性。

posted @ 2025-10-28 22:11 Ehotian 阅读(7) 评论(0) 收藏举报

刷新页面返回顶部

Ehotian

线性回归

公告