机器学习第四章

思维导图

4.1线性判据基本概念

生成模型：直接在输入空间中学习其概率密度p(x)

判别模型：直接在输入空间输出后验概率p(Ci|x)

线性判据：如果判别模型f(x)是线性函数，那f(x)为线性判据
对于二分类，决策边界是线性；对于多分类，相邻两类的决策边界也是线性
计算量少，适用于样本少的情况
线性判据模型：f(x) = wTx + w0
任意样本x到决策边界的垂直距离：r = f(x) / ||w||。

4.2线性判据学习概述

监督式学习(训练)过程（学习w和w0）

识别过程

解不唯一；
参数空间&解域（从解域中找到最优解）；
- 设计目标函数 + 约束条件（提高泛化能力）
- 最大/最小化目标函数
约束条件
- 使得解域范围收缩

4.3并行感知机算法

预处理：参数合一，负类样本取反
目标函数是被错误分类的所有训练样本的输出取反求和。
目标函数求偏导后不含参数w和w0，故使用梯度下降迭代求解最优，需要设置步长、阈值，和初始化w和w0，当目标函数小于阈值或者大于等于0后，停止。

4.4串行感知机算法

并行感知机算法一次全部给出训练样本

串行感知机算法一个一个串行给出训练样本
思想：当前样本被错误分类的程度最小。
目标函数
收敛性、全局最优&局部最优
感知机变体 b的作用：避免出现a=0的解

4.5Fisher线性判据

原理：找到一个合适的投影轴，使得两类样本在轴上重叠部分最少

类间差异程度尽可能大、类内离散程度尽可能小
类间样本用均值差度量、类内样本用协方差矩阵度量
存在问题：两类部分样本在决策边界附近犬牙交错

4.6支持向量机基本概念

基本思想：给定一组训练样本，两个类与决策边界最近的训练样本到决策边界的间隔最大。
间隔
支持向量机(SVM)：最大化总间隔。

4.7拉格朗日乘数法

用于解决条件优化问题
- 等式约束中g(x) = 0的条件，使得λ可正可负，f(x)和g(x)的梯度方向一定平行，但方向可能同向或者反向，且梯度幅值不同。
- 不等式约束分为两种情况：
  - 一种是极值点在可行域内，即g(x) < 0，则必有λ=0；
  - 一种是极值点落在可行域边界，即λ大于0，故f(x)的梯度方向将和g(x)平行且相反

4.8拉格朗日对偶问题

不等式约束仍然带有约束条件，如何优化求解？
引入主问题，仍然难以求解
引入对偶函数，主问题最优值的下界

4.9支持向量机学习算法

带不等式约束的优化问题使用拉格朗日对偶法求解
构造拉格朗日函数、构建对偶函数、对偶问题的求解（二次规划问题、参数最优解w、w0）
支持向量机分类器

4.10软间隔支持向量机

软间隔：克服过拟合
允许在一定程度上，让训练样本出现在间隔区域内
引入松弛变量

松弛变量的大小决定了错误分类的程度
引入正则系数
构建拉格朗日函数、对偶函数（在极值点得到）、求解参数w和w0最优解

4.11线性判据多类分类

多类分类的本质：非线性

多个模型（线性/非线性）组合成非线性决策边界
策略
- One-to-all：假设每个类与剩余类可分
  - K个类、K-1个分类器
  - 正负样本个数不均衡？存在混淆区域问题？
- 线性机：假设每个类与剩余类线性可分。
  - 使用输出值投票法（max函数）给定测试样本𝒙，其属于所有分类器中输出值最大的那个类。
  - 可能出现测试样本出现在拒绝区域？
- One-to-one：每个类与剩余类可能线性不可分
  - K(K-1)/2个分类器
  - 标签识别法：利用每一类的权重𝒘向量决定该类与剩余类之间的决策边界
  - 会出现拒绝选项？

4.12线性回归

输入&输出
线性回归VS线性判据
线性回归模型如何学习：学习参数w、目标函数(最小化均方差)、优化目标（对参数求偏导）（梯度下降更新迭代or最小二乘法得封闭解）
概率解释

4.13逻辑回归的概念

线性模型如何改进为非线性模型？
回顾：MAP分类器
Logit变换：𝐶1类的后验概率与𝐶2类的后验概率之间的对数比率

Sigmoid函数：连接线性模型和后验概率的桥梁

线性模型𝑓(𝒙) + Sigmoid函数 = 后验概率
逻辑回归：线性模型𝑓(𝒙) + sigmoid函数。
适用范围：
- 分类（狭义/广义）（前提：两类线性可分）
- 回归（可拟合Sigmoid形式的非线性曲线）

4.14逻辑回归的学习

学习参数w和w0
训练样本（真值取值方式和SVM不一样）

正类（𝐶1类）样本的输出真值𝑡𝑛 = 1

负类（𝐶2类）样本的输出真值𝑡𝑛 = 0
目标函数—最大似然估计法（给定单个输入样本𝒙，模型输出的类别标签𝑙可以看做一个随机变量）—交叉熵
优化目标函数
- 梯度下降法（有需要注意的问题：梯度消失问题（可通过选择较小初始化参数w来避免））
- 达到一定训练精度，提前停止迭代，可以避免过拟合

4.15Softmax判据的概念

逻辑回归输出：属于正类的后验概率

那么多类？每类的后验概率如何表达？
后验概率的多类情况：一个类与剩余类的后验概率比率
逻辑回归是由Logit变换反推出来的；由Logit变换可知：正负类后验概率比率的对数是一个线性函数
分类𝐾个类，可以构建𝐾个线性判据。第𝑖个线性判据表示𝐶𝑖类与剩余类的分类边界，剩余类用一个参考负类（reference class） 𝐶𝐾来表达。
对于多类分类，K个线性模型也跟每个类对应的后验概率建立起了联系
Softmax判据：𝐾个线性判据 + softmax函数

4.16Softmax判据的学习

Softmax判据需要学习K组参数{wi，w0}

4.17核支持向量机（Kernel SVM）

以SVM为基础是否可实现非线性分类边界？
思想：如果样本在原始特征空间（𝑋空间）线性不可分，可以将这些样本通过一个函数𝜑映射到一个高维的特征空间（Φ空间），使得在这个高维空间，这些样本拥有一个线性分类边界。
核函数：在低维空间的一个非线性函数，包含向量映射和点积计算
- 核函数条件：Mercer条件
- 常见核函数
  - 多项式核函数
  - 高斯核函数
- 核函数的优缺点

posted @ 2021-05-26 00:54 hyuqi 阅读(211) 评论(0) 收藏举报

刷新页面返回顶部