2018 年 1月 21 日随笔档案 - 橙子牛奶糖

2018年1月21日

斯坦福大学公开课机器学习：machine learning system design | data for machine learning（数据量很大时，学习算法表现比较好的原理）

摘要：下图为四种不同算法应用在不同大小数据量时的表现，可以看出，随着数据量的增大，算法的表现趋于接近。即不管多么糟糕的算法，数据量非常大的时候，算法表现也可以很好。数据量很大时，学习算法表现比较好的原理：使用比较大的训练集（意味着不可能过拟合），此时方差会比较低；此时，如果在逻辑回归或者线性回归模型中阅读全文

posted @ 2018-01-21 23:13 橙子牛奶糖阅读(405) 评论(0) 推荐(0)

斯坦福大学公开课机器学习：machine learning system design | trading off precision and recall（F score公式的提出：学习算法中如何平衡（取舍）查准率和召回率的数值）

摘要：一般来说，召回率和查准率的关系如下：1、如果需要很高的置信度的话，查准率会很高，相应的召回率很低；2、如果需要避免假阴性的话，召回率会很高，查准率会很低。下图右边显示的是召回率和查准率在一个学习算法中的关系。值得注意的是，没有一个学习算法是能同时保证高查准率和召回率的，要高查准率还是高召回率，取决于阅读全文

posted @ 2018-01-21 20:51 橙子牛奶糖阅读(359) 评论(0) 推荐(0)

斯坦福大学公开课机器学习：machine learning system design | error metrics for skewed classes（偏斜类问题的定义以及针对偏斜类问题的评估度量值：查准率（precision）和召回率（recall））

摘要：上篇文章提到了误差分析以及设定误差度量值的重要性。那就是设定某个实数来评估学习算法并衡量它的表现。有了算法的评估和误差度量值，有一件重要的事情要注意，就是使用一个合适的误差度量值，有时会对学习算法造成非常微妙的影响。这类问题就是偏斜类（skewed classes）的问题。什么意思呢。以癌症分类为例阅读全文

posted @ 2018-01-21 17:43 橙子牛奶糖阅读(696) 评论(0) 推荐(0)

斯坦福大学公开课机器学习： machine learning system design | error analysis（误差分析：检验算法是否有高偏差和高方差）

摘要：误差分析可以更系统地做出决定。如果你准备研究机器学习的东西或者构造机器学习应用程序，最好的实践方法不是建立一个非常复杂的系统、拥有多么复杂的变量，而是构建一个简单的算法。这样你可以很快地实现它。研究机器学习的问题时，会花一天的时间试图很快的把结果搞出来。即便效果不好，运行得不完美，通过交叉验证来检验阅读全文

posted @ 2018-01-21 15:19 橙子牛奶糖阅读(342) 评论(0) 推荐(0)

橙子牛奶糖

简介：陈文燕，本科暨南大学，中科院博士。欢迎关注微信公众号“bio生物信息”，进群与众多生信同行一起讨论学术问题。私信不回，有问题请在文章下面评论。

公告

橙子牛奶糖

简介：陈文燕，本科暨南大学，中科院博士。 欢迎关注微信公众号“bio生物信息”，进群与众多生信同行一起讨论学术问题。私信不回，有问题请在文章下面评论。

公告

简介：陈文燕，本科暨南大学，中科院博士。欢迎关注微信公众号“bio生物信息”，进群与众多生信同行一起讨论学术问题。私信不回，有问题请在文章下面评论。