机器学习与模式识别一到三章学习笔记

第一章基本概念

1.什么是模式识别

(1) 模式识别的应用实例：字符识别、交通标志识别、动作识别、语音识别等

(2) 模式识别的基本定义：

① 根据任务，模式识别可以分为“分类”和“回归”

分类：离散的类别表达

回归：连续的信号表达

回归是分类的基础，离散的类别值是由回归值做判别决策得到的

② 模式识别：根据已有知识的表达，针对待识别模式，判别决策其所属的类别或者预测其对应的回归之。因此，模式识别本质上是一种推理过程

2.模式识别数学表达

(1) 模式识别的数学解释

模式识别可以看做一种函数映射f(x)，将待识别模式x从输入空间映射到输出空间。f(x)是关于已有知识（训练样本）的表达

（2）模型的概念

模型：关于已有知识的一种表达方式，即函数f(x)

模型的组成：

用于回归（狭义）：
用于分类（广义）：
特征提取：从原始输入数据提取更有效的信息
回归器：将特征映射到回归值
判别函数：使用一些特定的非线性函数来实现，记作函数g。由于判别函数通常固定已知，所以不把它当作模型的一部分
- 二类分类的判别器：
  
  使用sign函数：判断回归值大于0还是小于0
- 多类分类的判别器：
  
  使用max函数：取最大的回归值所在维度对应的类别

（3）特征以及特征空间

辨别能力：提升不同类别之间的识别性能
鲁棒性：针对不同的观测条件，仍然能够有效表达类别之间的差异性

（4）特征向量

（5）特征空间：

每个坐标轴代表一个维度的特征
空间中的每个点代表一个模式或者样本点
从坐标原点到任意一点（模式）之间的向量即为该模式的特征向量，这个点有各个维度的特征信息

3.特征向量的相关性

(1)单位向量的情况

（2）残差向量：

（3）欧式距离：

4.机器学习基本概念-----如何得到模型

（1）iid：independent and identical distribution（独立同分布）

（2）训练样本：

每个训练样本都是通过采样得到的一个模式，即输入特征空间中的一个向量，通常是高纬度，例如一幅图像
这组训练样本要尽量覆盖模型所有可能的分布空间

（3）线性模型：

（4）非线性模型：

（5）参数的解的个数：

训练样本个数=模型参数个数：参数有唯一解（相当于两个参数给两个点，可以得到一条准确的直线）
训练样本个数>>模型参数个数：没有准确的解-->目标函数（损失函数)
训练样本个数<=模型参数个数：无数个解/无解--->目标函数+约束条件

(6) 目标函数：以待学习的模型参数作为自变量、以训练样本作为给定量

(7) 优化算法：最小化或最大化目标函数的技术

（8）监督式学习：训练样本及其输出真值都给定情况下的机器学习算法

通常使用最小化训练误差作为目标函数进行优化

（9）无监督式学习：只给定训练样本，没有给输出真值情况下的机器学习算法

典型应用：聚类、图像分割

（10）半监督式学习：既有标注的训练样本、又有未标注的训练样本情况下的学习算法

5.模型的泛化能力

（1）泛化能力：学习算法对新模式的决策能力

（2）训练集：模型训练所用的样本数据

（3）测试集：测试模型性能所用的样本数据，假设从样本iid采样得到的

测试集和训练集是互斥的，但假设是同分布的？

（4）误差：模型（机器）给出的预测/决策输出与真值输出之间的差异，包括训练误差和测试误差

（5）过拟合：模型训练阶段表现很好，但是在测试阶段表现很差

（6）如何提高泛化能力：不要过度训练

选择复杂度适合的模型：模型选择
正则化：在目标函数中加入正则项

（7）调参：

如何选取合适的超参数：
- 需要依据泛化误差，但又不能基于测试集
- 从训练集中划分出一个验证集，基于验证集调整选择超参数

6.评估方法与性能指标

（1）如何量化的评估模型性能

留出法
- 直接将数据集D划分为两个互斥的部分，其中一部分作为训练集，另一部分用作测试集
- 通常训练集和测试集的比例为70%：30%。
- 数据集的划分要注意尽可能保持数据分布的一致性，避免因数据划分过程引入的额外偏差而对最终结果产生影响。在分类任务中，保留类别比例的采样方法称为分层采样
- 同时要注意采用若干次随机划分避免单次使用留出法的不稳定性。
K折交叉验证
- 交叉验证法先将数据集划分为K个大小相似的互斥子集，每次采用K−1个子集的并集作为训练集，剩下的那个子集作为测试集。进行K次训练和测试，最终返回K个测试结果的均值
留一验证
- 留一法是K折交叉验证K=样本数时候的特殊情况。即每次只用一个样本作测试集，其它所有样本来训练，计算开销较大

（2）如何通过评估选择确定超参数：

按照上述三类评估方法的思路，数据集->训练集，测试集->验证集

（3）性能指标度量

F-Score：
混淆矩阵
- 行为真值，列为预测值，元素为计数统计值
- 对角线的值越大，表示模型性能越好
PR曲线
- 横轴为召回率，纵轴为精度
- 对各类别样本分布敏感
- 越往右上凸突性能越好
ROC曲线
- 横轴为假阳性比例（FPR），纵轴为召回率
- FPR = 1 - Specificity
- 对各类别样本分布不敏感
- 越往左上凸突性能越好
- 对角线为随机识别算法的性能
- 可使用曲线下面积（AUC）度量，其中AUC = 0.5时为随机识别算法

第二章基于距离的分类器

1.MED分类器

（1）基于距离分类的基本概念

基本概念：基于距离的决策
- 把测试样本到每个类之间的距离作为决策模型，将测试样本判定为与其距离最近的类
基本问题
- 类的原型问题：如何计算单个向量到多个向量的距离
- 距离度量问题：计算测试样本到类的何种距离
类的原型：用来代表这个类的一个模式或者一组量，便于计算该类和测试样本之间的距离
原型的总类：均值、最近邻
距离度量
- 距离度量标准：同一性、非负性、对称性、三角不等式
- 常见的几种距离度量：
  - 欧氏距离:
  - 曼哈顿距离
  - 加权欧式距离：

（2）MED分类器

最小欧氏距离分类器
- 距离衡量：欧氏距离
- 类的原型：均值
决策边界：在高维空间中，该决策边界是一个超平面，且该平面垂直且二分连接两个类原型的线
问题：MED分类器采用欧氏距离作为距离度量，没有考虑特征变化的不同及特征之间的相关性
解决方法：去除特征变化的不同及特征之间的相关性

2.特征白化

（1）特征正交白化

将原始特征映射到一个新的特征空间，使得在新空间中特征的协方差矩阵为单位矩阵，从而去除特征变化的不同及特征之间的相关性

（2）特征解耦任务：协方差矩阵的对角化

（3）特征解耦：先去除特征之间的相关性

（4）特征白化：在解耦的基础上再对特征进行尺度变化

3.MICD分类器

最小类内距离分类器
- 距离度量：马氏距离
- 类的原型：均值
MICD分类器的决策边界：对于二类分类而言，MICD分类器的决策边界位于到两个类的距离

相等的面上
问题：MICD分类器的缺陷是会选择方差较大的类

第三章贝叶斯决策与学习

1.贝叶斯决策与MAP分类器

（1）基于距离的决策存在的问题：

仅考虑每个类别各自观测到的训练样本的分布情况
没有考虑类的分布等先验知识，例如，类别之间样本数量的比例，类别之间的相互关系

（2）后验概率：用于分类决策

（3）贝叶斯规则：

（4）MAP分类器（最大后验概率分类器）

将测试样本分类到后验概率最大的类
决策产生的误差用概率误差表达，是未选择的类对应的后验概率

（5）决策目标：最小化概率误差，即最小化分类误差

2.MAP分类器：高斯观测概率

3.贝叶斯分类器

在MAP分类器的基础上，加入决策风险因素
决策风险和损失

决策目标
- 选择决策风险最小的类。即对于所有测试样本，选择损失最小的类，以达到期望损失最小
- 期望损失，即所有样本的决策损失之和

4.最大似然估计

（1）最大似然估计

（2）先验概率估计：给定所有类的N个训练样本，假设随机抽取其中一个样本属于C1类的概率为P，则选取到N1个属于C2类样本的概率为先验概率的似然函数（即目标函数）

*先验概率的最大似然估计就是该类训练样本出现的频率

（3）高斯分布参数估计

待学习的参数：
目标函数
关于参数的偏导置零

（4）均值估计

*高斯分布均值的最大似然估计等于样本的均值

（5）协方差估计

*高斯分布协方差的最大似然估计等于所有训练模式的协方差

5.最大似然的估计偏差

(1) 无偏估计：如果一个参数的估计量的数学期望是该参数的真值，则该估计量称作无偏估计

*无偏估计意味着只要训练样本个数足够多，该估计值就是参数的真实值。

(2) 高斯分布

均值的最大似然估计是无偏估计
协方差的最大似然估计是有偏估计
- 估计偏差是一个较小的数，当N足够大时，最大似然估计可以看做是一个较好的估计
- 协方差估计的修正：

6.贝叶斯估计（1）

（1）概念：

已知样本满足某种未知参数的概率分布，把待估计参数看作符合先验概率分布的随机变量。
对样本进行观测的过程就是把先验概率密度转化为后验概率密度，利用样本信息修正了对参数的初始估计值

（2）参数的后验概率

（3）高斯观测似然

参数（高斯均值）先验概率
参数（高斯均值）后验概率

分析
- 当𝑁𝑖足够大时，样本均值m就是参数θ的无偏估计

参数先验对后验的影响

(4）贝叶斯估计：不断学习能力

它允许最初的、基于少量训练样本的、不太准的估计
随着训练样本的不断增加，可以串行的不断修正参数的估计值，从而达到该参数的期望真值

7.贝叶斯估计（2）

8.无参数概率密度估计

（1）如果概率分布形式未知，可以通过无参数技术来实现概率密度估计

（2）无参数估计：

KNN估计(K-nearest neighbors)
- 优点：可以自适应的确定x相关的区域R的范围
- 缺点：
  - -KNN的概率密度估计不是连续函数
  - 不是真正的概率密度表达，概率密度函数积分是无穷大而不是1
直方图技术（Histogram technique)
- 优点：
  - 固定区域R：减少由于噪声污染造成的估计误差
  - 不需要存储训练样本
- 缺点：
  - 固定区域R的位置：如果模式x落在相邻格子的交界区域，意味着当前格子不是以模式x为中心，导致统计和概率估计不准确
  - 固定区域R的大小：缺乏概率估计的自适应能力，导致过于尖锐或平滑
核密度估计(Keernel density estimation)
- 优点：
  - 以待估计模式𝒙为中心、自适应确定区域𝑅的位置（类似KNN）。
  - 使用所有训练样本，而不是基于第 𝑘 个近邻点来估计概率密度，从而克服KNN估计存在的噪声影响。
  - 如果核函数是连续，则估计的概率密度函数也是连续的。
- 缺点：
  - 与直方图估计相比，核密度估计不提前根据训练样本估计每个格子的统计值，所以它必须要存储所有训练样本

posted @ 2021-05-05 13:26 Liwh- 阅读(531) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

liwh-'s blogs

机器学习与模式识别一到三章学习笔记

第一章基本概念

1.什么是模式识别

2.模式识别数学表达

3.特征向量的相关性

4.机器学习基本概念-----如何得到模型

5.模型的泛化能力

6.评估方法与性能指标

第二章基于距离的分类器

1.MED分类器

2.特征白化

3.MICD分类器

第三章贝叶斯决策与学习

1.贝叶斯决策与MAP分类器

2.MAP分类器：高斯观测概率

3.贝叶斯分类器

4.最大似然估计

5.最大似然的估计偏差

6.贝叶斯估计（1）

7.贝叶斯估计（2）

8.无参数概率密度估计

公告

liwh-'s blogs

机器学习与模式识别一到三章学习笔记

第一章 基本概念

1.什么是模式识别

2.模式识别数学表达

3.特征向量的相关性

4.机器学习基本概念-----如何得到模型

5.模型的泛化能力

6.评估方法与性能指标

第二章 基于距离的分类器

1.MED分类器

2.特征白化

3.MICD分类器

第三章 贝叶斯决策与学习

1.贝叶斯决策与MAP分类器

2.MAP分类器：高斯观测概率

3.贝叶斯分类器

4.最大似然估计

5.最大似然的估计偏差

6.贝叶斯估计（1）

7.贝叶斯估计（2）

8.无参数概率密度估计

公告

第一章基本概念

第二章基于距离的分类器

第三章贝叶斯决策与学习