随笔列表第5页 - NWNU-LHY

2019年7月19日

摘要： 1.人工检验train和dev/test之间的区别；比如：汽车语音识别中的噪音、地名难以识别等等 2.使得你的训练集更靠近(相似于)dev/test，收集更多类似于dev的数据；比如：dev中存在很多噪音，可以模拟噪音数据；或者地名难以识别，可以收集更多地名的语音数据。注意：目前没有系统化解决阅读全文

posted @ 2019-07-19 13:51 NWNU-LHY 阅读(170) 评论(0) 推荐(0) 编辑

ubuntu之路——day11.3 不匹配数据划分的偏差和方差

摘要：在11.2中，我们提到了一种数据划分的方法，那么怎么衡量这种数据划分方法中的误差呢？来看一个例子：有20w条各种领域的语音识别数据，2w条汽车语音定位数据 train+dev+test，其中train是20w原始数据+1w汽车数据，dev和test各自都是5k条汽车数据显然地，train和dev 阅读全文

posted @ 2019-07-19 13:24 NWNU-LHY 阅读(204) 评论(0) 推荐(0) 编辑

ubuntu之路——day11.2 快速搭建系统并进行迭代、在不同的划分上进行训练和测试

摘要：快速搭建系统并进行迭代 1.建立dev/test set，并确定你的目标 2.快速建立初始化的系统 3.使用前面提到的bias/variance分析和错误分析来进行模型优化和迭代针对以上的过程，Andrew Ng建议在搭建第一个系统的时候遵循quick and dirty的思路不要过度复杂化初始阅读全文

posted @ 2019-07-19 11:18 NWNU-LHY 阅读(168) 评论(0) 推荐(0) 编辑

ubuntu之路——day11.1 如何进行误差分析

摘要：举个例子还是分类猫图片的例子假设在dev上测试的时候，有100张图片被误分类了。现在要做的就是手动检查所有被误分类的图片，然后看一下这些图片都是因为什么原因被误分类了。比如有些可能因为被误分类为狗或者其他的原因，然后列一张表格通过这种人工检查误分类的方式，就可以得到误分类数据被误分类原因的占阅读全文

posted @ 2019-07-19 10:39 NWNU-LHY 阅读(138) 评论(0) 推荐(0) 编辑

2019年7月18日

ubuntu之路——day10.7 提高模型的表现

摘要：总结一下就是在提升偏差的方面(即贝叶斯最优误差和训练误差的差距) 1、尝试更大更深的网络 2、加入优化算法比如前面提过的momentum、RMSprop、Adam等 3、使用别的神经网络架构比如RNN/CNN等等在提升方差的方面(即训练误差和测试误差的差距) 1、加大训练集的样本数量 2、正则化操阅读全文

posted @ 2019-07-18 15:42 NWNU-LHY 阅读(140) 评论(0) 推荐(0) 编辑

ubuntu之路——day10.6 如何理解人类表现和超过人类表现

摘要：从某种角度来说，已知的人类最佳表现其实可以被当做贝叶斯最优错误，对于医学图像分类可以参见下图中的例子。那么如何理解超过人类表现，在哪些领域机器已经做到了超越人类呢？阅读全文

posted @ 2019-07-18 15:19 NWNU-LHY 阅读(134) 评论(0) 推荐(0) 编辑

ubuntu之路——day10.5 可避免偏差

摘要：可避免偏差：总结一下就是当贝叶斯最优误差接近于训练误差的时候，比如下面的例子B，我们不会说我们的训练误差是8%，我们会说我可避免偏差是0.5%。阅读全文

posted @ 2019-07-18 15:04 NWNU-LHY 阅读(116) 评论(0) 推荐(0) 编辑

ubuntu之路——day10.4 什么是人的表现

摘要：结合吴恩达老师前面的讲解，可以得出一个结论：在机器学习的早期阶段，传统的机器学习算法在没有赶超人类能力的时候，很难比较这些经典算法的好坏。也许在不同的数据场景下，不同的ML算法有着不同的表现。但是在接近人类表现，甚至超越人类表现逼近bayes optimal error的时候，深度学习就展现了其阅读全文

posted @ 2019-07-18 14:44 NWNU-LHY 阅读(116) 评论(0) 推荐(0) 编辑

ubuntu之路——day10.3 train/dev/test的划分、大小和指标更新

摘要： train/dev/test的划分我们在前面的博文中已经提到了train/dev/test的相关做法。比如不能将dev和test混为一谈。同时要保证数据集的同分布等。现在在train/dev/test的划分中，我们依然要旧事重提关于same distribution即同分布的概念。假设我们现在阅读全文

posted @ 2019-07-18 14:32 NWNU-LHY 阅读(416) 评论(0) 推荐(0) 编辑

ubuntu之路——day10.2单一数字评估指标与满足和优化的评估指标

摘要：单一数字评估指标：我们在平时常用到的模型评估指标是精度（accuracy）和错误率（error rate），错误率是：分类错误的样本数站样本总数的比例，即E=n/m（如果在m个样本中有n个样本分类错误），那么1-a/m就是精度。除此之外，还会有查准率和查全率，下面举例解释。按照周志华《机器学习》阅读全文

posted @ 2019-07-18 13:49 NWNU-LHY 阅读(160) 评论(0) 推荐(0) 编辑