统计学习方法第二版第一章统计学及监督学习概论笔记

1. 统计学习

1.1 统计学习的方法

  • 基于数据构建概率统计模型从而对数据进行预测与分析。统计学习由监督学习、无监督学习、强化学习等组成

1.2 实现统计学习的方法的步骤

1)得到一个有限的训练数据集合
2)确定包含所有可能的模型的假设空间,即学习模型的集合
3)确定模型选择的准则,即学习的策略
4)实现求解最优模型的算法,即学习的算法
5)通过学习方法选择最优模型
6)利用学习的最优模型对新数据进行预测或分析

2. 统计学习的分类

2.1 基本分类

2.1.1 监督学习

2.1.1.1 定义:

1)指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律

2.1.1.2 特征向量:

1)\(x=\left ( x^{(1)}, x^{(2)},x^{(3)},x^{(4)}...x^{(n)}\right )^{T}\)

2.1.1.3 第i个变量:

1)\(x_{i}=\left ( x_{i}^{(1)}, x_{i}^{(2)},x_{i}^{(3)},x_{i}^{(4)}...x_{i}^{(n)}\right )^{T}\)

2.1.1.4 训练集:

1)\(T=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2} \right )...\left ( x_{N},y_{N} \right ) \right \}\)

2.1.1.5 联合概率分布:

1)监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X, Y),P(X, Y)表示分布函数,或分布密度函数。训练数据与测试数据被看作是依联合概率分布P(X, Y)独立同分布产生的。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布就是监督学习关于数据的基术假设

2.1.1.6 假设空间:

1)输入空间到输出空间的映射,模型可以表示为P(y|x)或y=f(x)

2.1.1.7 问题形式化:

1)
在预测过程中,预测系统对于给定的输入\(x_{N+1}\)由模型\(y_{N+1} = \underset{y}{argmax}\hat{P}\left ( y|x_{N+1} \right )\)\(y_{N+1} = \hat{f}\left ( x_{N+1} \right )\)给出相应的输出\(y_{N+1}\)

2.1.2 无监督学习

2.1.2.1 定义:

1)指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。可以用于对已有的数据进行分析或者对未来的数据进行预测

每一个输出是对输入的分析结果,由输入的类别、转换或概率表达,模型可以实现对数据的聚类、降维或概率估计

2.1.2.2 无监督学习的模型:

1)函数\(z=g_{\theta }(x)\)(硬聚类:一个样本只能属于一个类)、条件概率分布\(P_{\theta }(z|x)\)(软聚类:一个样本可以属于多个类)或条件概率分布\(P_{\theta }(x|z)\)(概率模型估计)

2.1.3 强化学习

2.1.3.1 定义:

1)指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程(Marlcov decision process)智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。

2.1.3.2 智能系统与环境的互动:

1)
目标是长期累积的奖励最大化

2.1.3.3 马可夫决策过程:

1)

2.1.3.4 马可夫决策过程求解:

1)贝尔曼方程:
\(V_{*}\left ( s \right )= \underset{a}{\max}\underset{{s}',r}{\sum} p\left ( {s}',r|s,a \right )\left [ r+\gamma V_{*}\left ( {s}' \right ) \right ]\)
贝尔曼方程中状态s的价值V(s)由两部分组成:
a.采取动作a后带来的奖励r
b.采取动作a后到达的新状态的价值V(s′)
2)策略迭代:
a.初始化: 随机选择一个策略作为初始值。 比如“不管什么状态, 一律朝下走”, 即P( A = 朝下走 | St=s) = 1, P( A = 其他 | St=s) = 0
b.进行策略评估: 根据当前的策略计算 \(V_{\pi }\left ( s \right )= E_{\pi }\left ( r+\gamma V_{\pi }\left ( {s}' \right )|S_{t}=s \right )\)
c.进行策略提升: 计算当前状态的最优动作\(\underset{a}{\max}\left \{ q_{\pi }\left ( s,a \right ) \right \}\),更新策略\(\pi _{s}= \underset{a}{argmax}\underset{{s}',r}{\sum}p\left ( {s}',r|s,a \right )\left [ r+\gamma V_{\pi }\left ( {s}' \right ) \right ]\)
d.不停地重复策略评估和策略提升, 直到策略不再变化为止

2.1.4 半监督学习与主动学习

2.1.4.1 半监督学习:

1)指利用标注数据和未标注数据学习预测模型的机器学习问题

2.1.4.2 主动学习:

1)指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题

2.2 模型分类

2.2.1 概率模型与非概率模型

2.2.1.1 概率模型:

1)监督学习中概率模型取条件概率分布形式P(y|x)且是生成模型,无监督学习中概率模型取概率分布形式P(z|x)或P(x|z)且是判别模型
2)决策树,朴素贝叶斯,隐马尔可夫模型,条件随机场,概率潜在语义分析,潜在狄利克雷分配,高斯混合模型,逻辑斯谛回归

2.2.1.2 非概率模型:

1)监督学习中非概率模型取函数形式y=f(x),无监督学习中非概率模型取函数形式z=g(x)
2)感知机,支持向量机,K近邻,AdaBoost,K均值,潜在语义分析,神经网络,逻辑斯谛回归

2.2.2 线性模型与非线性模型

  • 统计学习模型,特别是非概率模型如果函数是线性函数则为线性模型反之是非线性模型,感知机、线性支持向量机、K近邻、K均值、潜在语义分析是线性模型,核函数支持向量机、AdaBoost、神经网络是非线性模型

2.3 算法分类

2.3.1 在线学习:

  • 每次接受一个样本,进行预测,之后学习模型并重复该操作的机器学习

2.3.2 批量学习:

  • 一次接受所有数据,学习模型之后进行预测

2.4 技巧分类

2.4.1 贝叶斯学习

2.4.1.1 最大后验概率统计:

1)贝叶斯公式:
后验概率:\(P\left ( \theta |D \right )=\frac{P\left ( D|\theta \right )\cdot P\left ( \theta \right )}{P\left ( D \right )}\)
极大似然估计:\(P\left ( D|\theta \right )=\prod_{i=1}^{n}P\left ( x_{i}|\theta \right )\)
先验概率:\(P\left ( \theta \right )\)
概率密度函数:\(f\left ( \theta \right ) = -\sum_{i=1}^{n}P\left ( x_{i}|\theta \right )\)
由于样本概率\(P\left ( D \right )\)固定,所以后验概率可化为求:

\[\begin{aligned} &maxP\left ( D|\theta \right )\cdot P\left ( \theta \right )\\ &取对数\\ \Rightarrow&maxlogP\left ( \theta \right )+logP\left ( D|\theta \right )\\ &取负\\ \Rightarrow&min-logP\left ( \theta \right )-logP\left ( D|\theta \right )\\ \Rightarrow&min-\sum_{i=1}^{n}logP\left ( x_{i}|\theta \right )-\sum_{i=1}^{m}logP\left ( \theta \right )\\ \Rightarrow&minf\left ( \theta \right )-\sum_{i=1}^{m}logP\left ( \theta \right )① \end{aligned} \]

2)L1正则化:
假设\(\theta\)满足拉普拉斯分布\(P\left ( \theta \right )=\frac{1}{2\lambda }e\tfrac{-\left | \theta_{i} \right |}{\lambda }\)则①可化为:

\[\begin{aligned} &\underset{\theta}{argmin}f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{2\lambda }e\tfrac{-\left | \theta_{i} \right |}{\lambda }\\ \Rightarrow&f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{2\lambda }-\sum_{i=1}^{m}loge\tfrac{-\left | \theta_{i} \right |}{\lambda }\\ \Rightarrow&f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{2\lambda }+\frac{1}{\lambda }\sum_{i=1}^{m}\left | \theta _{i} \right |\\ &令\lambda=1\\ \Rightarrow&\underset{\theta}{argmin}f\left ( \theta \right )+\lambda\left \| \theta _{i} \right \|_{1} \end{aligned} \]

L1范式:\(\left \| \theta \right \|_{1} = \left | \theta _{1} \right |+\left | \theta _{2} \right |+...+\left | \theta _{n} \right |\)
3)L2正则化:
假设\(\theta\)满足正态分布(均值为0,方差为\(\sigma ^{2}\)\(P\left ( \theta \right )=\frac{1}{\sqrt{2\pi }\sigma }e^{\frac{-\theta _{i}^{2}}{2\sigma ^{2}}}\)则①可化为:

\[\begin{aligned} &\underset{\theta}{argmin}f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi }\sigma }e^{\frac{-\theta _{i}^{2}}{2\sigma ^{2}}}\\ \Rightarrow&f\left ( \theta \right )-\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi }\sigma }+\frac{1}{2\sigma ^{2}}\sum_{i=1}^{m}\theta _{i}^{2}\\ &令\sigma ^{2}=1\\ \Rightarrow&\underset{\theta}{argmin}f\left ( \theta \right )+\frac{\lambda }{2}\left \| \theta _{i} \right \|_{2}^{2} \end{aligned} \]

L2范式:\(\left \| \theta \right \|_{2} =\sqrt{\theta _{1}^{2}+\theta _{2}^{2}+...+\theta _{n}^{2}}\)
4)L1、L2正则化防止过拟合:

正则化之所以能够降低过拟合的原因在于,正则化是结构风险最小化的一种策略实现
给loss function加上正则化项,能使得新得到的优化目标函数h = f+normal,需要在f和normal中做一个权衡(trade-off),如果还像原来只优化f的情况下,那可能得到一组解比较复杂,使得正则项normal比较大,那么h就不是最优的,因此可以看出加正则项能让解更加简单,符合奥卡姆剃刀理论,同时也比较符合在偏差和方差(方差表示模型的复杂度)分析中,通过降低模型复杂度,得到更小的泛化误差,降低过拟合程度

L1正则化和L2正则化:
L1正则化就是在loss function后边所加正则项为L1范数,加上L1范数容易得到稀疏解(0比较多)。L2正则化就是loss function后边所加正则项为L2范数的平方,加上L2正则相比于L1正则来说,得到的解比较平滑(不是稀疏),但是同样能够保证解中接近于0(但不是等于0,所以相对平滑)的维度比较多,降低模型的复杂度

2.4.2 核方法

  • 使用核函数表示和学习非线性模型的一种机器学习方法,将线性模型扩展到非线性模型,应用更广泛

3. 统计学习方法三要素

3.1 模型


3.2 策略

3.2.1 损失函数和风险函数

3.2.1.1 损失函数:

1)定义:度量模型一次的好坏
2)分类:

3.2.1.2 风险函数:

1)定义:度量平均意义下模型预测的好坏

3.2.2 经验风险最小化和结构风险最小化

3.2.2.1 经验风险最小化:

1)

3.2.2.2 结构风险最小化:

1)

3.3 算法

  • 算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型(Keras)

4. 模型评估和模型选择

4.1 训练误差与测试误差

4.1.1 训练误差

4.1.2 测试误差

4.2 过拟合与模型选择

4.2.1 过拟合

  • 对于训练数据拟合较好,精度较高,损失函数较小
  • 对于测试数据拟合较差,精度较低,损失函数较大
  • 数据分布相对简单,噪声较多,机器学习模型复杂度较高

4.2.2 模型选择

  • 选择复杂度合适的模型达到是测试误差最小的目的

5. 正则化与交叉验证

5.1 正则化

  • 见2.4.1.1

5.2 交叉验证

5.2.1 简单交叉验证

  • 将数据集按一定比例分为训练集和测试集,在各种条件下训练得到模型,用测试集评价模型的测试误差,选出误差最小的模型

5.2.2 S折交叉验证

  • 第1步,将数据等分到s份
  • 第2步,下列步骤重复s次
    (1)每一次迭代中留存其中一份数据。第一次迭代中留存第1份,第二次留存第2份,其余依此类推,第i次留存第i份
    (2)用其他s-1份数据的信息作为训练数据,训练分类器(第一次迭代中利用从第2份到第s份的信息进行训练分类器)
    (3)利用留存的数据作为测试数据,来测试分类器并保存测试结果。
  • 第3步,上述步骤完成后,从s个分类器中,选择最好的一个最为分类模型【如:用经验风险最小进行模型选择】

5.2.3 留一交叉验证

  • 留一法就是每次只留下一个样本做测试集,其它样本做训练集,如果有k个样本,则需要训练k次,测试k次
  • 留一发计算最繁琐,但样本利用率最高。适合于小样本的情况

6. 泛化能力

6.1 泛化误差

6.2 泛化误差上界

6.2.1 定义

6.2.2 推导

不等式(1.32)左端R(f)是泛化误差,右端即为泛化误差上界。在泛化误差上界中,第一项时候训练误差,训练误差越小,泛化误差也越小。第二项 \(\varepsilon \left ( d,N,\delta \right )\) 是N的单调递减函数,当N趋于无穷时趋于0。同时它也是 \(\sqrt{logd}\) 阶的函数,假设空间F包含的函数越多,其值越大。
Hoeffding不等式:

可知\(\hat{R}\left ( f \right ) = E\bar{x},R\left ( f \right ) = \bar{x}\)


(1.38)的推导:

\[\begin{aligned} &\delta =de^{-2N\varepsilon ^{2}}\\ \Rightarrow&\frac{\delta }{d}=e^{-2N\varepsilon ^{2}}\\ \Rightarrow&\frac{d}{\delta }=e^{2N\varepsilon ^{2}}\\ \Rightarrow&log\frac{d}{\delta } = loge^{2N\varepsilon ^{2}}\\ \Rightarrow&\frac{1}{2N}\left ( logd+log\frac{1}{\delta } \right ) = \varepsilon ^{2}\\ \Rightarrow&\sqrt{\frac{1}{2N}\left ( logd+log\frac{1}{\delta } \right )} = \varepsilon \end{aligned} \]

7. 生成模型与判别模型

7.1 生成模型

7.1.1 特点


生成模型估计的是联合概率分布,特点是从统计的角度表示数据的分布情况,能反映同类数据本身的相似度,不关心各类的边界在哪,生成模型可以得到判别模型,判别模型得不到生成模型

7.1.2 优缺点

7.1.2.1 优点:

1)由于统计了数据的分布情况,所以其实际带的信息要比判别模型丰富,对于研究单类问题来说也比判别模型灵活性强
2)模型可以通过增量学习得到(增量学习是指一个学习系统能不断地从新样本中学习新的知识,并能保存大部分以前已经学习到的知识)
3)收敛速度更快,当样本容量增加的时,生成模型可以更快的收敛于真实模型
4)隐变量存在时,也可以使用

7.1.2.2 缺点:

1)学习和计算过程比较复杂,由于学习了更多的样本信息,所以计算量大,如果我们只是做分类,就浪费了这部分的计算量
2)准确率较差
3)往往需要对特征进行假设,比如朴素贝叶斯中需要假设特征间独立同分布,所以如果所选特征不满足这个条件,将极大影响生成式模型的性能

7.2 判别模型

7.2.1 特点


判别模型估计的是条件概率分布,不能反映训练数据本身的特性,目的在于寻找不同类别之间的最优分界面

7.2.2 优缺点

7.2.2.1 优点:

1)由于关注的是数据的边界,所以能清晰的分辨出多类或某一类与其他类之间的差异,所以准确率相对较高
2)计算量较小,需要的样本数量也较小

7.2.2.2 缺点:

1)不能反映训练数据本身的特性
2)收敛速度较慢

8. 监督学习的应用

8.1 分类问题

8.1.1 定义

  • 输出变量Y取有限个离散值的预测问题

8.1.2 精确率、召回率、混淆矩阵和\(F_{1}\)Score

8.1.2.1 混淆矩阵:

对二分类: 预测值: 0 1
真实 0 TN FN
1 FP TP
准确率:\(\frac{TP+TN}{D}\)

8.1.2.2 精确率:

1)\(P=\frac{TP}{TP+FP}\) 需要更多的正类

8.1.2.3 召回率:

1)\(P=\frac{TP}{TP+FN}\) 需要更多的负类正负样本不均衡使用

8.1.2.4 \(F_{1}\)Score:

1)\(\frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}\Rightarrow F_{1}=\frac{2PR}{P+R}=\frac{2TP}{2TP+FP+FN}\) 平衡精确率召回率
2)N分类:\(< F_{1}> =\frac{1}{n}\sum_{i=1}^{n}F_{i}=\frac{1}{n}\sum_{i=1}^{n}\frac{2P_{i}R_{i}}{P_{i}+R_{i}}\)
预测类作为正类其他类作为负类则化二分类问题

8.2 标注问题


8.2 回归问题

posted @ 2020-10-21 11:48  Benjay  阅读(400)  评论(0编辑  收藏  举报