机器学习入门
1. 定义
一个机器学习算法,只需通过训练,就可以解决某一领域中每一个新问题,而不是对每个新问题特定地进行编程
2. 机器学习方法分类
2.1 监督(supervised)学习
根据已知类别的训练样本,由机器从其中进行学习或者训练,从中勾画出各类事物在特征空间分布的规律性,进而对新样本进行判断;

2.2 无监督学习(unsupervised)或聚类(clustering)
由机器从未知类别的样本中进行学习(自学习),从中发现有利于对象分类的规律;

2.3 半监督(semi-supervised)学习
由机器利用部分已知类别的样本,从中恢复样本的相关附加信息,进而进行聚类分析。
3.机器学习任务攻略
3.1 过拟合问题
- 缓解过拟合问题
- 增加训练集
- 给训练的模型施加一些限制以限制模型的弹性
- 如何给训练的模型施加一些限制以限制模型的弹性
- 减少参数或者参数共享
- 减少特征
- 早停
- 正则化
- Dropout
3.2 怎样挑选更好的模型
- 问题: 在训练集跑后挑选的模型可能会在公开的testing set表现良好,但是在私有的testing set表现很差
- 可以使用交叉验证缓解上述问题:将training set分为(training set 和 validation set),根据validation set的表现去评价在training set训练过的模型性能
- 使用N-fold Cross Validation进行分割training set

3.3 类神经网络训练-局部最小值local
- gradient值接近为0的点为critical point,分为local minima(局部最小值)和saddle point(鞍点)

浙公网安备 33010602011771号