吴恩达《深度学习》第三门课（2）机器学习策略二

2.1进行误差分析

（1）一识别猫为案例，错误率为10%，这时系统还可以有较大提升空间，这时该往哪方面努力呢？可以通过误差分析，具体可以拿出100个分类错误的样本，然后利用表格统计每个样本分类错误的原因（如下图所示），比如很模糊，狗和猫很像，有滤镜等，一个样本出错可以同时有多个原因，统计看因为什么原因导致分类错误的比例最高，那么就应该着重花功夫在那上面。

（2）根据上面的统计也可以预估出如果完美解决该问题可以带来多大性能的提升，比如100张样本中有5张图把狗误认为了猫，所以即使解决了狗识别成猫的问题，最终能带来的性能提升是从90%到90.5%。

2.2清楚标记错误的数据

（1）深度学习对于训练集样本（注意此处只讲了是训练集）样本随机标注错误其实表现出很强的健壮性，一般没有必要去修正训练集样本的错误标注（一来没必要，而来训练集可能非常之大耗时耗力）。

（2）对于验证集而言，务必将验证集的操作运用到测试集上，保证二者的同分布。

（3）同样在误差分析的表格中添加一列作为样本标记错误导致的，看看他的占比，比如说修正能提升0.6%，那么如果现在误差是10%的话，显然其他原因可提升性能空间更大，应优先考虑，但是当误差只有2%时，这时就不得不考虑到样本标记错误了，因为它已经成为主要原因了。

（4）在验证集、测试集上看分类错误的样本上的样本标记错误的同时，也应该看判断正确的样本里是否有标记错误，那也是需要修正的，否则如果只修正算法出错的样本，你对算法的偏差故居可能会变大。

2.3快速搭建你的第一个系统，并进行迭代

（1）针对一个你第一次处理的新问题：总之一句话就是尽快确定验证集、测试集和单一指标，即有了目标，然后迅速建立起一个系统，即使很粗糙也没有关系。有了这个系统之后就可以用它做偏差方差分析，做误差分析，进而知道下一步该往哪方面优化了。

（2）如果你已经很有经验了，又或者你面对的问题有非常多的学术文献可以借鉴，比如人脸识别设备，那么可以在大量文献的基础之上，一开始就构建比较复杂的系统。

2.4在不同的划分上进行训练并测试

（1）猫分类案例:20万张照片是网络爬取的高清照，10000张是用户上传的模糊的低像素的照片，以下是两种划分方法：

1.将200 000和10 000张合并在一起，然后205000作为训练集，2500作为开发集，2500作为测试集，这样虽然三者同分布，但是优化的目标（开发集）中其实非常多的都是来自网络的照片，不是真实场景中的，所以最终应用的效果并不会很好。不赞同这种方式。

2.将5000张用户照片放入到200 000张照片中组成训练集，然后2500张来自用户的作为开发集，2500张来自用户的作为开发集，这样的划分效果会更加。

（2）语音激活汽车后视镜案例：500 000段语音以及20 000段与后视镜语音激活相关的语音，分类方法类似上面的第二种，将10 000段与后视镜语音激活相关的放入500 000段中组成训练集，5000段与后视镜语音激活相关的做开发集，剩下5000段作为测试集，这样效果为佳。

2.5不匹配数据划分的偏差与方差

（1）当训练集和开发集/测试集不同分布时会出现数据不匹配，这时开发集误差减去训练集误差得到的不一定是方差了，所以提出在训练集中拿出一部分数据，组成训练-开发集，训练-开发集与训练集同分布，这样训练-开发集的误差减去训练集的误差就是系统方差了。

（2）如下图所示：训练集误差减去人类水平误差得到偏差，训练--开发集误差减去训练集误差得到的是方差，开发集/测试集误差减去训练-开发集误差得到的是数据不匹配带来的误差。

（3）有时会发现开发集/测试集误差比训练-开发集还要小，原因是因为训练时使用了非常难的样本，而在实际中很少出现这么难的样本。

（4）很遗憾的是关于数据不匹配造成的误差并没有什么很系统的方法来解决。

2.6定位数据不匹配

（1）如果发现存在数据不匹配问题，建议做错误分析，或者看看开发集和训练集，试图找出这两个数据集分布到底有什么不同，然后看看有没有办法手机更多看起来像开发集的数据作训练。

（2）案例1：后视镜语音激活。发现在开发集中有很多汽车噪声，而训练集中没有，这就是造成分布不同的一大原因，解决办法就是录很多汽车噪声的声音，然后与安静的训练集进行合成形成更像开发集的训练集。这里需要注意一点是录噪声的时间多应该尽可能的多，比如1000个小时，而不是用相同的1个小时噪声取合成，这样人听起来没什么区别，但是神经网络可能已经对那一小时噪声过拟合了。下图是语音的合成：

（3）汽车目标检测同样如此，在用计算机视觉合成汽车图像作为数据集时，应该合成尽可能多的种类的汽车，而不是就一二十汽车，虽然他们都很逼真，如下图所示：

2.7迁移学习

（1）迁移学习最常用的场景：如果尝试优化任务B的性能，通常这个任务的数据相对较少，例如，在放射科很难收集足够多的X射线扫描图片，所以这种情况下，你可能找一个相关但不同的业务，如图像识别，其中你可能有一百万张图片训练过了，并从中学到很多低层次特征，所以那也许能帮助网络在任务B在放射科任务上做的更好，尽管任务B没有那么多数据。注意也有不起作用的时候，那就是任务A实际上数据量比任务B要少，这种情况下增益可能不多。

（2）迁移学习方法：一般去掉别人网络的最后一层，然后重新按照需求添加最后一层或者几层，这一层或者几层从新赋初值，前面的权重利用别人已经训练好的权重（较做预训练pre-training），然后根据新数据来训练添加的网络的权重（叫做微调fine tuning），如果数据量多的话，可以训练整个网络权重，少的话就训练后天添加的。如下图示意：