Hinge Loss
Hinge Loss
在机器学习中,hinge loss作为一个损失函数(loss function),通常被用于最大间隔算法(maximum-margin),而最大间隔算法又是SVM(支持向量机support vector machines)用到的重要算法(注意:SVM的学习算法有两种解释:1. 间隔最大化与拉格朗日对偶;2. Hinge Loss)。
Hinge loss专用于二分类问题,标签值\(y=\pm1\),预测值\(\hat y \in R\)。该二分类问题的目标函数的要求如下:
- 当\(\hat y\)大于等于+1或者小于等于-1时,都是分类器确定的分类结果,此时的损失函数loss为0;
- 而\(\hat y \in (-1, 1)\)当预测值时,分类器对分类结果不确定,loss不为0。
- 显然,当\(\hat y=0\)时,loss达到最大值。
对于输出\(y=\pm1\),当前y^的损失为:
上式是Hinge loss在二分类问题的的变体,可以看做双向Hinge loss。难以理解的话,可以先看单方向的hinge loss。以\(y=\pm1\),为例。当y⩾1时,loss为0,否则loss线性增大。函数图像如下所示:
Hinge loss在SVM中的应用
SVM在简单情况下(线性可分情况下)使用的就是一个最大间隔算法。几何意义如下图所示(实心的数据点就是该类别的支持向量),最大化分离超平面到两个类别的支持向量之间的距离 。
线性可分SVM的预测值\(\hat y = w \cdot x + b\),其中w和b都是分类器通过样本学习到的参数。正如前面所说,\(\hat y \in R\)。如果分离超平面在如上图所示的位置(这是最大分割情况)并且支持向量与分割平面之间的距离=1,每个\(y=1\)的样本其\(\hat y \geqslant 1\),每个\(y=−1\)的样本其\(\hat y \leqslant -1\),每个点的Hinge loss为0,整体loss作为平均值,也等于0。 如果分割超平面误分类,则Hinge loss大于0。Hinge loss驱动分割超平面作出调整。 如果分割超平面距离支持向量的距离小于1,则Hinge loss大于0,且就算分离超平面满足最大间隔,Hinge loss仍大于0
拓展
再强调一下,使用Hinge loss的分类器的\(\hat y \in R\)。\(|\hat y|\)越大,说明样本点离分割超平面越远,即该样本点很容易被分类。但是,我们在选择合适的损失函数进行优化时,没必要关注那些离超平面很远的样本。为此,我们可以通过对距分离超平面的距离选择一个阈值,来过滤这些离超平面很远的样本。这就是Hinge loss的精髓.
\(\ell(y) = \max(0, 1-y \cdot \hat y)\) 式中的1就是我们选择的阈值,这个可以作为一个超参数。通过一个max(0, )函数,忽略\(\hat y\)值过高的情况。
SVM
这个思想可以拓展到SVM的多分类问题。SVM的多分类有两种损失函数:
其中,\(\max_{\hat y \neq y}(\mathbf w_ \hat y \mathbf x + \mathbf b)\)表示对于某一标签值\(y\),分类器错误预测的最大值,\(\mathbf w_y \mathbf x + \mathbf b\)表示正确的分类器预测值,1表示分类阈值。注意:即使是分类器,也是先产生预测值,再根据预测值和分类阈值进行分类的。
其中,\(\mathbf {w} _{\hat y}\mathbf {x} + \mathbf b\)表示错误的分类器预测值,\(\mathbf w_y \mathbf x + \mathbf b\)表示正确的分类器预测值,1表示分类阈值。
优化
Hinge loss是一个凸函数(convex function),所以适用所有的机器学习凸优化方法。 虽然Hinge loss函数不可微,但我们可以求它的分段梯度:
这里,$ \hat y = w \cdot x + b\(, 预期输出\)y=\pm 1\(。 当然,Hinge loss的梯度在\)y \cdot \hat y=1$点处未定义。
然而,由于铰接损失在\(y \cdot \hat y=1\)处不可导, Zhang 建议在优化时可使用平滑的变体建议,[1] 如Rennie 和 Srebro 提出的分段平滑[2]:
或平方平滑。
Modified Huber loss \(L\)是\(\gamma = 2\)时损失函数的特例,此时 \(L(y, \hat y) = 4 \ell_2(\hat y)\)中。
三个铰链损失的变体 \(z = y \cdot \hat y\):“普通变体”(蓝色),平方变体(绿色),以及 Rennie 和 Srebro 提出的分段平滑变体(红色)。
参考文献
1.Zhang, Tong. Solving large scale linear prediction problems using stochastic gradient descent algorithms (PDF). ICML. 2004.
2.Rennie, Jason D. M.; Srebro, Nathan. Loss Functions for Preference Levels: Regression with Discrete Ordered Labels (PDF). Proc. IJCAI. 2005
3.维基百科
4.Hinge loss

浙公网安备 33010602011771号