随笔分类 -  机器学习

为什么说朴素贝叶斯是高偏差低方差?
摘要:首先,假设你知道训练集和测试集的关系。简单来讲是我们要在训练集上学习一个模型,然后拿到测试集去用,效果好不好要根据测试集的错误率来衡量。但很多时候,我们只能假设测试集和训练集的是符合同一个数据分布的,但却拿不到真正的测试数据。这时候怎么在只看到训练错误率的情况下,去衡量测试错误率呢? 由于训练样本很 阅读全文

posted @ 2016-09-14 01:26 瞧那头猪 阅读(1233) 评论(0) 推荐(0)

机器学习面试题总结2
摘要:1 LR与SVM区别 逻辑回归相对来说模型更简单,好理解,实现起来,特别是大规模线性分类时比较方便.而SVM的理解和优化相对来说复杂一些.但是SVM的理论基础更加牢固,有一套结构化风险最小化的理论基础,虽然一般使用的人不太会去关注.还有很重要的一点,SVM转化为对偶问题后,分类只需要计算与少数几个支 阅读全文

posted @ 2016-08-18 19:56 瞧那头猪 阅读(242) 评论(0) 推荐(0)

学习理论
摘要:1 基本概念 输入空间、特征空间与输出空间 在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间,可以是有限元素空间也可以是整个欧式空间,输入输出空间可以是同一空间也可以是不同空间,通常输出空间远远小于输出空间 每个具体的实例通常由特征向量表示,特征向量的空间成为特征空间,有时假设 阅读全文

posted @ 2016-08-03 21:46 瞧那头猪 阅读(234) 评论(0) 推荐(0)

机器学习面试问题汇总
摘要:1 最小二乘和梯度下降的区别? 最小二乘法的目标:求误差的最小平方和,对应有两种:线性和非线性。线性最小二乘的解是closed-form即,而非线性最小二乘没有closed-form,通常用迭代法求解。迭代法,即在每一步update未知量逐渐逼近解,可以用于各种各样的问题(包括最小二乘),比如求的不 阅读全文

posted @ 2016-08-03 20:39 瞧那头猪 阅读(241) 评论(0) 推荐(0)

Naive Bayesian classification 朴素贝叶斯分类
摘要:xx 阅读全文

posted @ 2016-08-03 20:38 瞧那头猪 阅读(147) 评论(0) 推荐(0)

svm
摘要:xx 阅读全文

posted @ 2016-08-03 20:37 瞧那头猪 阅读(113) 评论(0) 推荐(0)

LR
摘要:xx 阅读全文

posted @ 2016-08-03 20:37 瞧那头猪 阅读(94) 评论(0) 推荐(0)

分类器性能度量指标
摘要:http://blog.csdn.net/mousever/article/details/46944265 阅读全文

posted @ 2016-08-03 20:36 瞧那头猪 阅读(204) 评论(0) 推荐(0)

adaboost 基于错误提升分类器
摘要:引自(机器学习实战) 简单概念 Adaboost是一种弱学习算法到强学习算法,这里的弱和强学习算法,指的当然都是分类器,首先我们需要简单介绍几个概念。 1:弱学习器:在二分情况下弱分类器的错误率会低于50%。其实任意的分类器都可以做为弱分类器,比如之前介绍的KNN、决策树、Naïve Bayes、l 阅读全文

posted @ 2016-08-03 20:14 瞧那头猪 阅读(3712) 评论(0) 推荐(0)

机器学习常见的最优化算法
摘要:1. 梯度下降法(Gradient Descent) 梯度下降法是最早最简单,也是最为常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该 阅读全文

posted @ 2016-08-03 18:59 瞧那头猪 阅读(11597) 评论(0) 推荐(0)

随机森林RF
摘要:bagging 随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输 入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这 阅读全文

posted @ 2016-08-03 16:03 瞧那头猪 阅读(214) 评论(0) 推荐(0)

Jackknife,Bootstrap, Bagging, Boosting, AdaBoost, RandomForest 和 Gradient Boosting的区别
摘要:Bootstraping: 名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下:(1) 采用重抽样技术从原始样本中抽取 阅读全文

posted @ 2016-08-03 15:59 瞧那头猪 阅读(2016) 评论(0) 推荐(0)

GBDT入门
摘要:GBDT(MART)迭代决策树入门教程 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和 阅读全文

posted @ 2016-08-03 15:57 瞧那头猪 阅读(292) 评论(0) 推荐(0)

导航