完整教程：机器学习核心概念四-＞逻辑回归与梯度下降实现

线性回归用于预测一个数值，而分类中大家输出变量y只能取少数几个可能值中的一个，而不是无限范围内的任意数值。线性回归并不是分类问题的好方法，接下来我们学习逻辑回归。

什么是决策边界？

将不同类别分割开来的界限或曲面就是在分类问题中，“决策边界”

为了建立逻辑回归算法，先介绍一个重要的数学函数-sigmoid function（logistic function）

逻辑回归并不是“回归”，而是一种二分类模型

线性组合输入特征： $z=w_{1}x_{1}+w_{2}x_{2}+...+w_{n}x_{n}+b$
映射到概率： $p=\sigma (x)=\frac{1}{1+e^{-x}}$ p表示样本属于“”正类‘的概率’，负类概率就是1-p
预测类别： $\hat{y}=\left\{\begin{matrix} 1\, \, \, \, p\geq 0.5\\0\, \, \, \, p< 0.5\end{matrix}\right.$

初始化参数w,b:随机给一组小数（起点），是训练开始的前提
计算预测概率：对每个样本 $x_{i}$ 计算线性组合 $z_{i}=w^{T}x_{i}+b$ ，通过sigmoid映射得到概率 $\hat{p}_{i}=\sigma \left ( z_{i} \right )$
计算损失（负对数似然/NLL）：用训练数据的真实的标签 $y_{i}$ 来衡量模型概率预测的好坏： $NLL\left ( w,b \right )= - \sum _{i=1}^{N}\left [ y_{i}log\hat{p}_{i}+\left ( 1-y_{i} \right )log\l\left ( 1-\hat{p}_{i} \right ) \right ]$
梯度下降更新参数：根据损失函数对w,b求梯度；更新参数w；重复迭代知道损失收敛
训练完成：得到最有参数，模型输出概率
训练阶段=不断预测概率+计算损失+调整参数；预测阶段：用训练好的参数输出概率->转换为类别

核心思想模型输出概率解释合理，同时便于梯度优化就是：用sigmoid把线性预测值转化成为概率，

学习逻辑回归模型后，我们来看看决策边界，更好的理解逻辑回归是如何计算其预测值的。

可以经过更高级的多项式得到更复杂的决策边界

定义：决策边界是模型区分不同类别的分界线或超平面
在逻辑回归中，预测类别0或1的阈值一般为0.5使预测概率p=0.5的点的集合就是，决策边界就 $\sigma \left ( z \right )=0.5\rightarrow z=w^{T}x+b=0$
这里 $z=w^{T}x+b$ 是线性组合，决策边界是线性方程：二维特征 $x=\left ( x_{1},x_{2} \right )$ 是直线；三维特征是平面；更高维度是超平面

成本函数为你提供了一种衡量特定参数集与训练数据适合度的方式，进而为你提供了一种选择更好参数的办法。接下来我们将讨论为什么平放误差成本函数不是逻辑回归的理想成本函数，并介绍一直可以帮助我们为逻辑回归选择更好参数的不同成本函数。

如上图所示，如果使用相同的成本函数来进行逻辑回归，并用这个f（x）值来绘制成本函数，成本函数会变成所谓的非凸成本函数，如果尝试使用梯度下降算法，将会在很多局部最小值中陷入困境，接下来介绍一种函数，它能够保证逻辑回归的成本函数是凸函数，这样梯度下降才能保证收敛到全局最小值。

1.真实标签y=1：对于真实标签为1的样本，不同预测概率对应的损失变化

2.真实标签y=0 : 对于真实标签为0的样本，不同预测概率对应的损失变化

接下来介绍一种稍微容易的手段写出损失函数和成本函数，这样当我们使用梯度下降来拟合逻辑回归模型的参数时会简单一些。

简化版只是把分段函数统一成一个公式，本质没边。它和最大似然估计直接对应，训练逻辑回归就是在最小化负对数似然。

posted @ 2025-11-26 13:09 yangykaifa 阅读(10) 评论(0) 收藏举报

刷新页面返回顶部