线性回归
一、线性回归的基本概念
线性回归是一种通过线性模型来建立自变量(特征)和因变量(目标)之间关系的方法。
简单线性回归:只有一个自变量,模型为:y = θ0 + θ1x
多元线性回归:有多个自变量,模型为:y = θ0 + θ1x1 + θ2x2 + ... + θnxn
二、损失函数
通常使用均方误差(MSE)作为损失函数,来衡量预测值与真实值的差异。
MSE = (1/m) * Σ(真实值 - 预测值)^2 (m为样本数量)
损失函数越小,模型拟合得越好。
三、梯度下降算法
梯度下降是一种优化算法,用于找到使损失函数最小化的参数θ。
步骤:
a. 初始化参数θ(通常初始化为0或随机值)
b. 计算损失函数关于每个参数的梯度(偏导数)
c. 更新参数:θ = θ - 学习率 * 梯度
d. 重复b和c直到收敛或达到迭代次数
四、评估指标
均方误差(MSE):
MSE = (1/m) × Σ(y_true - y_pred)²
特点:对异常值敏感
范围:0到+∞,越小越好
均方根误差(RMSE):
MSE的平方根
特点:与目标变量单位相同
范围:0到+∞,越小越好
平均绝对误差(MAE):
MAE = (1/m) × Σ|y_true - y_pred|
特点:对异常值不如MSE敏感
范围:0到+∞,越小越好
R平方(R²):
R² = 1 - (SS_res / SS_tot)
表示模型解释的方差比例
范围:0到1之间,越大越好
调整R²:
Adj_R² = 1 - [(1-R²)(m-1)/(m-n-1)]
m样本数量,n特征数量
特点:惩罚多余特征,防止过拟合
五、多元线性回归
多个特征时的线性回归。注意:特征之间可能存在量纲差异,需要进行特征缩放(归一化/标准化)。
模型:y = θ0 + θ1x1 + θ2x2 + ... + θn*xn
矩阵表示:Y = Xθ,其中X是包含一列1(对应θ0)的特征矩阵。
六、正则化
为了防止过拟合,我们在损失函数中加入正则项。
岭回归(L2正则化):
在损失函数中加入θ的平方和(不包括θ0),即λΣθ_i^2 (i从1到n)
特点:缩小所有系数,但不为零
适用:多重共线性严重时
Lasso回归(L1正则化):
在损失函数中加入θ的绝对值之和(不包括θ0),即λΣ|θ_i| (i从1到n)
特点:将某些系数压缩为零,实现特征选择
适用:特征数量很多时
七、多项式回归
通过引入特征的高次项来拟合非线性关系。例如:y = θ0 + θ1x + θ2x^2
注意:多项式回归仍然是线性回归的一种,因为相对于参数θ是线性的。
八、模型假设和注意事项
线性关系:自变量和因变量之间存在线性关系。
独立性:误差项之间相互独立。
同方差性:误差项具有常数方差。
正态分布:误差项服从正态分布。
多重共线性:在多元线性回归中,特征之间不应有高度相关性。

浙公网安备 33010602011771号