一、机器学习简介 

(一)是什么?

对象:具有一定统计规律的数据

方法:监督学习、无监督学习、半监督学习、强化学习

目的:最小化损失函数来预测模型参数,从而使得模型具有更好的泛化能力

(二)分类

监督学习:根据带标签的数据来训练模型。分类任务、回归任务、序列标注任务

无监督学习:从未标记的训练数据来训练模型。聚类任务、降维任务

半监督学习:根据大量未标记数据和少量已标注数据来训练模型

强化学习:根据系统与环境的交互获得信息来训练模型

(三)模型训练常见的问题

1、过拟合

是什么?

模型能很好拟合训练数据,但是泛化能力低,在测试集上表现差——高方差

怎么解决?

重新清洗数据、减少模型复杂度、增加数据量、正则化、增加噪声、集成多种模型,early stopping、神经网络中采用dropout等

2、欠拟合

是什么?

模型不能很好的拟合训练数据,未知数据上的表现也很差——高偏差

怎么解决?

更改模型,添加其他特征项、减少正则化参数

(四)模型评估和选择

1、评估

训练误差:模型关于训练数据的损失

测试误差:模型关于测试数据的损失

 泛化性能:模型对位置数据的预测能力

查准率

查全率

2、选择

交叉验证:将数据集划分为k个大小相似的互斥子集。通过分层采样得到每个子集Di,保持数据分布一致性。每次用k-1个子集的并集作为训练集,余下那个作测试集。即可获得K组训练/测试集,进行K次训练和测试,最终返回k个测试结果的均值。也称”k折交叉验证”

正则化:选择经验风险与模型复杂度同时较小的模型。损失函数中正则化项的系数衡量了模型的复杂度,从贝叶斯角度看正则化项对应于模型的鲜艳概率。