机器学习入门

1. 定义

一个机器学习算法,只需通过训练,就可以解决某一领域中每一个新问题,而不是对每个新问题特定地进行编程

2. 机器学习方法分类

2.1 监督(supervised)学习

根据已知类别的训练样本,由机器从其中进行学习或者训练,从中勾画出各类事物在特征空间分布的规律性,进而对新样本进行判断;

2.2 无监督学习(unsupervised)或聚类(clustering)

由机器从未知类别的样本中进行学习(自学习),从中发现有利于对象分类的规律;

2.3 半监督(semi-supervised)学习

由机器利用部分已知类别的样本,从中恢复样本的相关附加信息,进而进行聚类分析。

3.机器学习任务攻略

3.1 过拟合问题

  1. 缓解过拟合问题
  • 增加训练集
  • 给训练的模型施加一些限制以限制模型的弹性
  1. 如何给训练的模型施加一些限制以限制模型的弹性
  • 减少参数或者参数共享
  • 减少特征
  • 早停
  • 正则化
  • Dropout

3.2 怎样挑选更好的模型

  1. 问题: 在训练集跑后挑选的模型可能会在公开的testing set表现良好,但是在私有的testing set表现很差
  2. 可以使用交叉验证缓解上述问题:将training set分为(training set 和 validation set),根据validation set的表现去评价在training set训练过的模型性能
  3. 使用N-fold Cross Validation进行分割training set

3.3 类神经网络训练-局部最小值local

  1. gradient值接近为0的点为critical point,分为local minima(局部最小值)和saddle point(鞍点)
posted @ 2024-10-08 20:34  awei040519  阅读(26)  评论(0)    收藏  举报