随笔分类 -  机器学习

摘要:详解简单卷积网络示例 假设有一张图片,想做图片分类或图片识别,把这张图片输入定义为\(x\),然后辨别图片中有没有猫,用0或1表示,这是一个分类问题,来构建适用于这项任务的卷积神经网络。针对这个示例,用了一张比较小的图片,大小是39×39×3,这样设定可以使其中一些数字效果更好。所以\(n_{H}^ 阅读全文
posted @ 2024-09-03 10:11 Oten 阅读(331) 评论(0) 推荐(0)
摘要:详解是否要使用端到端的深度学习? 假设正在搭建一个机器学习系统,要决定是否使用端对端方法,来看看端到端深度学习的一些优缺点,这样就可以根据一些准则,判断的应用程序是否有希望使用端到端方法。 这里是应用端到端学习的一些好处,首先端到端学习真的只是让数据说话。所以如果有足够多的\((x,y)\)数据,那 阅读全文
posted @ 2024-07-30 09:56 Oten 阅读(332) 评论(0) 推荐(0)
摘要:什么是端到端的深度学习? 深度学习中最令人振奋的最新动态之一就是端到端深度学习的兴起,那么端到端学习到底是什么呢?简而言之,以前有一些数据处理系统或者学习系统,它们需要多个阶段的处理。那么端到端深度学习就是忽略所有这些不同的阶段,用单个神经网络代替它。 来看一些例子,以语音识别为例,目标是输入\(x 阅读全文
posted @ 2024-07-25 09:50 Oten 阅读(2697) 评论(0) 推荐(0)
摘要:详解多任务学习 在迁移学习中,步骤是串行的,从任务\(A\)里学习只是然后迁移到任务\(B\)。在多任务学习中,是同时开始学习的,试图让单个神经网络同时做几件事情,然后希望这里每个任务都能帮到其他所有任务。 来看一个例子,假设在研发无人驾驶车辆,那么无人驾驶车可能需要同时检测不同的物体,比如检测行人 阅读全文
posted @ 2024-07-24 10:00 Oten 阅读(1371) 评论(0) 推荐(0)
摘要:详解迁移学习 深度学习中,最强大的理念之一就是,有的时候神经网络可以从一个任务中习得知识,并将这些知识应用到另一个独立的任务中。所以例如,也许已经训练好一个神经网络,能够识别像猫这样的对象,然后使用那些知识,或者部分习得的知识去帮助您更好地阅读x射线扫描图,这就是所谓的迁移学习。 来看看,假设已经训 阅读全文
posted @ 2024-07-18 09:52 Oten 阅读(1860) 评论(0) 推荐(1)
摘要:处理数据不匹配问题 如果您的训练集来自和开发测试集不同的分布,如果错误分析显示有一个数据不匹配的问题该怎么办?这个问题没有完全系统的解决方案,但可以看看一些可以尝试的事情。如果发现有严重的数据不匹配问题,通常会亲自做错误分析,尝试了解训练集和开发测试集的具体差异。技术上,为了避免对测试集过拟合,要做 阅读全文
posted @ 2024-07-16 10:38 Oten 阅读(299) 评论(0) 推荐(0)
摘要:详解数据分布不匹配时,偏差与方差的分析 估计学习算法的偏差和方差真的可以帮确定接下来应该优先做的方向,但是,当训练集来自和开发集、测试集不同分布时,分析偏差和方差的方式可能不一样,来看为什么。 继续用猫分类器为例,说人类在这个任务上能做到几乎完美,所以贝叶斯错误率或者说贝叶斯最优错误率,知道这个问题 阅读全文
posted @ 2024-07-11 09:51 Oten 阅读(304) 评论(0) 推荐(1)
摘要:如何使用来自不同分布的数据,进行训练和测试 深度学习算法对训练数据的胃口很大,当收集到足够多带标签的数据构成训练集时,算法效果最好,这导致很多团队用尽一切办法收集数据,然后把它们堆到训练集里,让训练的数据量更大,即使有些数据,甚至是大部分数据都来自和开发集、测试集不同的分布。在深度学习时代,越来越多 阅读全文
posted @ 2024-07-10 13:34 Oten 阅读(323) 评论(0) 推荐(0)
摘要:快速搭建的第一个系统,并进行迭代 如果正在考虑建立一个新的语音识别系统,其实可以走很多方向,可以优先考虑很多事情。 比如,有一些特定的技术,可以让语音识别系统对嘈杂的背景更加健壮,嘈杂的背景可能是说咖啡店的噪音,背景里有很多人在聊天,或者车辆的噪音,高速上汽车的噪音或者其他类型的噪音。有一些方法可以 阅读全文
posted @ 2024-07-09 09:53 Oten 阅读(150) 评论(0) 推荐(0)
摘要:清除标注错误的数据 监督学习问题的数据由输入\(x\)和输出标签 \(y\) 构成,如果观察一下的数据,并发现有些输出标签 \(y\) 是错的。的数据有些标签是错的,是否值得花时间去修正这些标签呢? 看看在猫分类问题中,图片是猫,\(y=1\);不是猫,\(y=0\)。所以假设看了一些数据样本,发现 阅读全文
posted @ 2024-06-13 15:04 Oten 阅读(340) 评论(0) 推荐(0)
摘要:从一个例子开始讲吧。 假设正在调试猫分类器,然后取得了90%准确率,相当于10%错误,,开发集上做到这样,这离希望的目标还有很远。也许的队员看了一下算法分类出错的例子,注意到算法将一些狗分类为猫,看看这两只狗,它们看起来是有点像猫,至少乍一看是。所以也许的队友给一个建议,如何针对狗的图片优化算法。试 阅读全文
posted @ 2024-06-07 17:52 Oten 阅读(211) 评论(0) 推荐(0)
摘要:如何改善模型的表现 学过正交化,如何设立开发集和测试集,用人类水平错误率来估计贝叶斯错误率以及如何估计可避免偏差和方差。现在把它们全部组合起来写成一套指导方针,如何提高学习算法性能的指导方针。 所以想要让一个监督学习算法达到实用,基本上希望或者假设可以完成两件事情。首先,的算法对训练集的拟合很好,这 阅读全文
posted @ 2024-06-06 10:47 Oten 阅读(195) 评论(0) 推荐(0)
摘要:超过人的表现 讨论过机器学习进展,会在接近或者超越人类水平的时候变得越来越慢。举例谈谈为什么会这样。 假设有一个问题,一组人类专家充分讨论辩论之后,达到0.5%的错误率,单个人类专家错误率是1%,然后训练出来的算法有0.6%的训练错误率,0.8%的开发错误率。所以在这种情况下,可避免偏差是多少?这个 阅读全文
posted @ 2024-05-31 09:40 Oten 阅读(95) 评论(0) 推荐(0)
摘要:理解人的表现 人类水平表现这个词在论文里经常随意使用,但现在告诉这个词更准确的定义,特别是使用人类水平表现这个词的定义,可以帮助推动机器学习项目的进展。还记得上个博客中,用过这个词“人类水平错误率”用来估计贝叶斯误差,那就是理论最低的错误率,任何函数不管是现在还是将来,能够到达的最低值。先记住这点, 阅读全文
posted @ 2024-05-30 09:52 Oten 阅读(113) 评论(0) 推荐(0)
摘要:可避免偏差 如果希望学习算法能在训练集上表现良好,但有时实际上并不想做得太好。得知道人类水平的表现是怎样的,可以确切告诉算法在训练集上的表现到底应该有多好,或者有多不好,让我说明是什么意思吧。 经常使用猫分类器来做例子,比如人类具有近乎完美的准确度,所以人类水平的错误是1%。在这种情况下,如果您的学 阅读全文
posted @ 2024-05-29 14:05 Oten 阅读(103) 评论(0) 推荐(0)
摘要:为什么是人的表现? 在过去的几年里,更多的机器学习团队一直在讨论如何比较机器学习系统和人类的表现,为什么呢? 认为有两个主要原因,首先是因为深度学习系统的进步,机器学习算法突然变得更好了。在许多机器学习的应用领域已经开始见到算法已经可以威胁到人类的表现了。其次,事实证明,当试图让机器做人类能做的事情 阅读全文
posted @ 2024-05-14 09:46 Oten 阅读(136) 评论(0) 推荐(0)
摘要:什么时候该改变开发/测试集和指标? 有时候在项目进行途中,可能意识到,目标的位置放错了。这种情况下,应该移动的目标。 来看一个例子,假设在构建一个猫分类器,试图找到很多猫的照片,向的爱猫人士用户展示,决定使用的指标是分类错误率。所以算法\(A\)和\(B\)分别有3%错误率和5%错误率,所以算法\( 阅读全文
posted @ 2024-05-09 10:44 Oten 阅读(117) 评论(0) 推荐(0)
摘要:在深度学习时代,设立开发集和测试集的方针也在变化。 可能听说过一条经验法则,在机器学习中,把取得的全部数据用70/30比例分成训练集和测试集。或者如果必须设立训练集、开发集和测试集,会这么分60%训练集,20%开发集,20%测试集。在机器学习的早期,这样分是相当合理的,特别是以前的数据集大小要小得多 阅读全文
posted @ 2024-05-07 11:02 Oten 阅读(758) 评论(0) 推荐(0)
摘要:训练/开发/测试集划分 设立训练集,开发集和测试集的方式大大影响了或者团队在建立机器学习应用方面取得进展的速度。同样的团队,即使是大公司里的团队,在设立这些数据集的方式,真的会让团队的进展变慢而不是加快,看看应该如何设立这些数据集,让团队效率最大化。 在此,想集中讨论如何设立开发集和测试集,开发(d 阅读全文
posted @ 2024-03-04 09:59 Oten 阅读(584) 评论(0) 推荐(1)
摘要:满足和优化指标 要把顾及到的所有事情组合成单实数评估指标有时并不容易,在那些情况里,发现有时候设立满足和优化指标是很重要的,让我告诉是什么意思吧。 假设已经决定很看重猫分类器的分类准确度,这可以是\(F_1\)分数或者用其他衡量准确度的指标。但除了准确度之外,还需要考虑运行时间,就是需要多长时间来分 阅读全文
posted @ 2024-02-29 09:38 Oten 阅读(226) 评论(0) 推荐(0)