《机器学习》第二次作业——第四章学习记录和心得

《第四章》笔记

4.11 线性判据多类分类

本质：非线性

(1) 实现非线性分类的途径

一个模型：能刻画非线性的决策边界。
多个模型：多个模型（线性/非线性）组合成非线性决策边界。
组合方式：并行组合、串行组合。

(2)线性判据实现多类分类的途径

对于线性判据：通过多个线性模型组合的途径实现多类分类。

思路一：One-to-all策略

(1) 基本思想

假设条件：每个类与剩余类线性可分。
针对每个类𝐶𝑖 ，单独训练一个线性分类器𝑓𝑖 （𝒙） = 𝒘𝑖𝑇𝒙 + 𝑤𝑖0。
每个分类器𝑓𝑖（ 𝒙）用来识别样本𝒙是属于𝐶𝑖类还是不属于𝐶𝑖类。
设类别个数为𝐾： 𝐾 > 2。
总共需要训练𝐾个分类器。

(2) 判别公式&决策边界

给定测试样本𝒙，其属于分类器输出值为正的那个类：
决策边界：
- 每个线性方程𝑓𝑖（𝒙）= 0表示𝐶𝑖类与剩余类的决策边界（记作𝐻𝑖）
- 每条决策边界𝐻𝑖垂直于𝒘𝑖

(3) 𝐾 − 1个分类器

有时也可以只训练𝐾 − 1 个分类器：针对某个测试样本𝒙，如果所有𝐾 − 1个分类器都输出为非正值，则代表该样本属于剩余的第𝐾个类。
(4) 训练样本选择

对于每个分类器𝑓𝑖 𝒙 ，属于𝐶𝑖类的训练样本作为正样本，其余类别的训练样本作为负样本。
问题：每个分类器正负类样本个数不均衡。

(5) 混淆区域

拒绝选项（reject case）：针对单个测试样本𝒙，所有分类器输出都不是正值。
重叠：针对单个测试样本 𝒙 ，出现多个分类器输出为正，形成多个类重叠的区域。

思路二：线性机

(1) 基本思想

假设条件：每个类与剩余类线性可分。
训练：基于one-to-all策略训练𝐾个线性分类器𝑓𝑖，每个分类器对应一个类𝐶𝑖。
决策：使用输出值投票法（max函数）

给定测试样本𝒙，其属于所有分类器中输出值最大的那个类。
(2) 为什么取输出值最大？
输出值𝑓𝑖 (𝒙) 近似于𝒙 到分类边界（𝐶𝑖类与剩余类）的距离。
该值最大即表示属于该类的可能性大。
(3) 决策过程数学表达
线性机的决策过程相当于：将输入特征𝒙直接映射到类别标签𝑙。
可见：线性机 = 𝐾个线性模型 + 一个max函数。
max函数是非线性的，因此线性机可以实现非线性分类。
综合𝐾个线性模型， 𝐾个权重向量𝒘𝑖写成矩阵𝑾，决策过程可以表达为：

(4) 决策边界

通过max函数的引入，线性机将特征空间最终分为𝐾个决策区域。
决策区域相邻的两类𝐶𝑖和𝐶𝑗，它们的决策边界𝐻𝑖𝑗为
决策边界𝐻𝑖𝑗垂直于超平面(𝒘𝑖 − 𝒘𝑗)
(5) 优势
由于使用max函数，不再有混淆区域（即拒绝区域和重叠区域）

(6) 问题

可能出现最大的𝑓𝑖(𝒙) ≤ 0，即测试样本𝒙出现在拒绝区域。
如果严格按照线性判据的定义，拒绝区域其实是线性机（基于one-to-all策略）无法正确判断的区域。

思路三：One-to-one策略

(1) 假设条件

任意两个类之间线性可分，但每个类与剩余类可能是线性不可分的。

(2) 基本思想

针对每两个类𝐶𝑖 和𝐶𝑗 ，训练一个线性分类器：𝑓𝑖𝑗 （𝒙） = 𝒘𝑖𝑗 𝑇𝒙 + 𝑤0𝑖𝑗。 𝐶𝑖类真值为正；𝐶𝑗类真值为负。
总共需要训练𝐾 （𝐾 − 1） /2个分类器。

(3) 训练样本选择

对于每个分类器𝑓𝑖𝑗 𝒙 ，属于𝐶𝑖类的训练样本作为正样本，属于𝐶𝑗类的训练样本作为负样本。
避免了one-to-all策略正负类样本个数不均衡的问题。
注意：𝑓𝑖𝑗 𝒙 = −𝑓𝑗𝑖 𝒙 。方程参数是一样的，只是输出值正负相反。分类边界是同一个。

(4) 判别公式&决策边界

给定测试样本𝒙，如果所有𝐶𝑖 相关的分类器输出都为正，则𝒙属于𝐶𝑖 ：
决策边界：𝐶𝑖类与剩余类的决策边界：所有𝐻𝑖𝑗正半边的交集。

(5) 优势

适用于一些线性不可分的情况，从而实现非线性分类。
与one-to-all策略相比，不再有重叠区域。

(6) 问题

会出现拒绝选项（ reject case ），即样本不属于任何类的情况。

(7) 避免Reject Case

采用类似线性机的策略，在决策过程中采用max函数。

针对每一个类𝐶𝑖，计算跟其成对的所有分类器𝑓𝑖𝑗的输出值之和σ𝑗 𝑓𝑖𝑗，测试样本𝒙属于σ𝑗 𝑓𝑖𝑗最大的那个类𝐶𝑖。

4.12 线性回归

(1) 输出数据和输入数据

主要输出数据类型
输入样本：个数与特征维度的关系
- 每个输入样本特征为𝑃维。样本个数为𝑁。
- Tall数据：𝑁 ≫ 𝑃，所有训练样本的输入和真值输出构成一个超定方程组。可以使用线性回归来学习。
- Wide数据：𝑁 ≪ 𝑃，所有训练样本的输入和真值输出构成一个欠定方程组。

（2）线性回归模型表达

输出单维度
输出多维度

模型对比：线性回归vs线性判据
线性回归：y=wTx
- 线性回归关注输出值的具体数值（连续值），所以，将输入空间+输出空间放在一起研究其线性映射方程
线性判据：sign（wTx)
- 线性判据关注输出值的正负符号（离散二值），所以，在输入空间研究其决策边界方程（线性的）：wTx=0
几何表示

（4）线性回归模型如何学习

待学习参数：W（y=WTx)
训练样本：
目标函数---最小化均方误差
- 如果参数w是最优的，意味着对于每个样本（xn，tn）而言，模型的输出值yn与标定的输出针织tn之间的差值最小（即误差最小）
- 因此，目标函数可以使用均方误差,即最小化均方误差
- 目标函数对比：线性回归vs线性判据
  - 线性判据：主要判断预测的输出值与真值在符号上的差异。如感知机：被错误分类的样本的输出值之和
  - 线性回归：比较预测的输出值和真值在树枝上的差异
目标优化：
- 展开目标函数
- 对参数w求偏导
- 梯度下降法
- 最小二乘法
  
  XTX分析：非奇异矩阵
  
  XXT分析：奇异矩阵
  （4）线性回归模型的概率解释
模型的概率解释：
似然函数
- 针对每个训练样本，输出真值t的条件概率越大，说明改样本的模型输出值与输出真值越接近，则参数w越是接近最优的
- 因此，给定N个训练样本，似然函数为输出真值t的条件概率乘积。该似然函数即为目标函数。最大化该目标函数
目标函数优化
- 最大似然估计
- 最大似然vsMSE（最小化均方误差）

4.13 逻辑回归的概念

（1）目前学过的分类器模型中，哪些模型是线性的，哪些是非线性的？

（2）MAP分类器是如何在线性和非线性之间切换的

logit变换
- 对于二类分类，MAP分类器通过比较后验概率的大小来决策。
- 在每类数据是高斯分布且协方差矩阵相同的情况下， 𝒙属于𝐶1类的后验概率与属于𝐶2类的后验概率之间的对数比率就是线性模型𝑓(𝒙)的输出。
Sigmoid函数：连接线性模型和后验概率的桥梁
- 线性模型𝑓(𝒙) + Sigmoid函数 = 后验概率

（3）逻辑回归

逻辑回归：线性模型𝑓(𝒙) + sigmoid函数，本身是一个非线性模型
决策边界：单个逻辑回归可以用于二类分类；给定两个类，逻辑回归的决策边界仍然是线性的超平面。
逻辑回归适用范围：
- 分类：当两类之间是线性可分时
- 回归：可以拟合sigmoid形式的非线性曲线

（4）模型对比

4.14 逻辑回归的学习

（1）训练样本：给定两个类别（正类和负类）共N个标定过的训练样本

正类（C1类）样本的输出真值tn=1
负类（C2类）样本的输出真值tn=0（与SVM不一样）

（2）如何设计目标函数

最大似然估计法

目标函数：交叉熵解释

（3）如何优化目标函数

梯度下降法：
- 分别对参数w和w0求导，然后更新参数
- 梯度下降法需要注意的问题：
  - 梯度消失问题
  - 参数初始化问题
  - 迭代什么时候停止：如果迭代停止条件设置为训练误差为0，或者所有训练样本都正确分了的时候才停止，则会出现过拟合问题。所以，在达到一定训练精度后，提前停止迭代，可以避免过拟合

4.15 softmax判据的概念

（1）对于多类而言，每类的后验概率如何表达？

（2）softmax函数

如果一个类𝐶𝑖对应的𝑦𝑖（即线性模型的输出）远远大于其他类的，经过exp函数和归一化操作，该类的后验概率𝑝(𝐶𝑖 |𝒙)接近于1，其他类的后验概率接近于0，则softmax决策就像是一个max函数
Softmax判据：𝐾个线性判据 + softmax函数。
softmax判据的决策过程：给定测试样本𝒙，经由线性模型和softmax函数计算𝐾个类对应的后验概率， 𝒙属于最大后验概率对应的类别。
softmax判据的决策比边界：决策区域相邻两类Ci和Cj，它们的决策边界Hij为线性

（3）适用范围：