机器学习笔记（一）

date: 2019-08-28

我使用 Python 3.7 来进行学习，没有装配环境的同学可以到下方链接查看教程。

术语

单个特征的线性关系：$ y' = b + w_1x_1 $

多个特征：$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + ... $

训练模型表示通过有标签样本来学习（确定）所有权重和偏差的理想值。在监督式学习中，机器学习算法通过以下方式构建模型：检查多个样本并尝试找出可最大限度地减少损失的模型；这一过程称为经验风险最小化。

显然，左侧的模型损失更大。当然仅仅这样是不够的，我们需要一个量化的标准：平方损失

平方损失是一种常见的损失函数，单个样本的平方损失可以描述为：

均方误差（MSE）：每个样本的平均平方损失

\[MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 \]

其中：

虽然 MSE 常用于机器学习，但它既不是唯一实用的损失函数，也不是适用于所有情形的最佳损失函数。

此外，由于 MSE 的值根据平方得来，其单位与数量级均不能很好地反映原始数据的情况，在实际操作时大多会选用 RMSE，即对求得的值开平方。