机器学习简介

一、机器学习简介　

（一）是什么？

对象：具有一定统计规律的数据

方法：监督学习、无监督学习、半监督学习、强化学习

目的：最小化损失函数来预测模型参数，从而使得模型具有更好的泛化能力

（二）分类

监督学习：根据带标签的数据来训练模型。分类任务、回归任务、序列标注任务

无监督学习：从未标记的训练数据来训练模型。聚类任务、降维任务

半监督学习：根据大量未标记数据和少量已标注数据来训练模型

强化学习：根据系统与环境的交互获得信息来训练模型

（三）模型训练常见的问题

1、过拟合

是什么？

模型能很好拟合训练数据，但是泛化能力低，在测试集上表现差——高方差

怎么解决？

重新清洗数据、减少模型复杂度、增加数据量、正则化、增加噪声、集成多种模型，early stopping、神经网络中采用dropout等

2、欠拟合

是什么？

模型不能很好的拟合训练数据，未知数据上的表现也很差——高偏差

怎么解决？

更改模型，添加其他特征项、减少正则化参数

（四）模型评估和选择

1、评估

训练误差：模型关于训练数据的损失

测试误差：模型关于测试数据的损失

泛化性能：模型对位置数据的预测能力

查准率

查全率

2、选择

交叉验证：将数据集划分为k个大小相似的互斥子集。通过分层采样得到每个子集Di,保持数据分布一致性。每次用k-1个子集的并集作为训练集，余下那个作测试集。即可获得K组训练/测试集，进行K次训练和测试，最终返回k个测试结果的均值。也称”k折交叉验证”

正则化：选择经验风险与模型复杂度同时较小的模型。损失函数中正则化项的系数衡量了模型的复杂度，从贝叶斯角度看正则化项对应于模型的鲜艳概率。

发表于 2018-12-18 15:38 zoeyn 阅读(225) 评论(0) 收藏举报

公告