2.3机器学习类型 2.4机器学习要素
机器学习类型
- 监督学习
- 无监督学习
- 强化学习
回归(Regression)问题(监督学习)
根据多种因素进行预测,输出是连续的 y属于R
根据已有的数据进行预测,有x有y
电影票房预测
股价预测
房价预测
分类(Classification)问题(监督学习)
对于输入可以给出一个标签,离散的标签,进行分类 y属于{0,1,....}
人脸检测 Face Detection
垃圾邮件检测
图像聚类 Clustering Images
训练样本当中没有输出的标签,对于任意x没有具体的类别,算法可以自动将相同的图像聚在一起
只有x没有y 希望给x上赋一个预测的y ——无监督学习问题
强化学习
围棋
通过与环境进行交互来学习
本质:不断试错,尝试各种可能性,看哪种带来的收益最大
典型的监督学习问题
- 回归
- 分类
典型的无监督学习问题
-
聚类
-
降维
-
密度估计
机器学习的要素·
-
数据
-
模型
-
学习准则
-
优化算法
模型
线性模型 f(x;θ) = w*x+b;
非线性模型 将x换为β(x),如果β(x)为可学习的非线性基函数,f(x;θ)就等价于神经网络
学习准则
一个好的模型应该在所有取值上都与真实映射函数一样
损失函数 Loss Function
损失函数是一个非负实数函数,用来量化模型预测和真实标签之间的差异
以回归问题为例
平方损失函数(Quadratic Loss Function)
\(L(y,f(x;θ))=\frac{1}{2}(y-f(x;θ))^2\)
期望风险 (Expected Risk)
近似为
训练数据:\(\{(x^{(n)},y^{(n)})\}_{n=1}^N\)
经验风险 (Empirical Risk) \(\mathcal{R}_{\mathcal{D}}^{\text{emp}}(\theta)=\frac{1}{N}\sum_{n=1}^NL(y^{(n)},f(x^{(n)};θ))\)
经验风险最小化 (Empirical Risk Minimization,ERM)
寻找一个参数θ*,使得经验风险函数最小
机器学习问题转化成为一个最优化问题
凸优化问题
- 一阶导为零
- 梯度下降法
梯度下降法
\(\theta_{t+1} = \theta_t - \alpha \frac{\partial \mathcal{R}_\mathcal{D}(\theta)}{\partial \theta}\) \(= \theta_t - \alpha \frac{1}{N} \sum_{n=1}^N \frac{\partial \mathcal{L}(y^{(n)}, f(\mathbf{x}^{(n)}; \theta))}{\partial \theta}\)
搜索步长中α也叫做学习率(Learning Rate)
需要人为选择的参数——超参数
随机梯度下降法 (Stochastic Gradient Descent, SGD)
在每次迭代时只采集一个样本
经过足够次数的迭代时,随机梯度下降也可以收敛到局部最优解
\(\theta_{t+1} = \theta_t - \alpha \frac{\partial \mathcal{L}(y^{(n)}, f(\mathbf{x}^{(n)}; \theta))}{\partial \theta} \quad n=1 \cdots N\)
优点:每次计算开销小,支持在线学习
缺点:无法充分利用计算机的并行计算能力
小批量(Mini-Batch)随机梯度下降法
随机选取一小部分训练样本来计算梯度并更新参数
即可以兼顾随机梯度下降法的优点,也可以提高训练效率
当验证集V上的错误率不再下降时,停止迭代
非凸优化问题

浙公网安备 33010602011771号