随笔分类 -  Machine Learning

摘要:转自 http://blog.csdn.net/hguisu/article/details/7996185 1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时 阅读全文
posted @ 2017-03-30 21:59 nolonely 阅读(620) 评论(0) 推荐(0) 编辑
摘要:转自http://blog.csdn.net/dongtingzhizi/article/details/15962797 当我第一遍看完台大的机器学习的视频的时候,我以为我理解了逻辑回归,可后来越看越迷糊,直到看到了这篇文章,豁然开朗 基本原理 Logistic Regression和Linear 阅读全文
posted @ 2017-03-16 15:30 nolonely 阅读(215) 评论(0) 推荐(0) 编辑
摘要:在学习的过程中,关于特征选择和降维都是防止数据过拟合的有效手段,但是两者又有本质上的区别。 降维 降维本质上是从一个维度空间映射到另一个维度空间,特征的多少别没有减少,当然在映射的过程中特征值也会相应的变化。 举个例子,现在的特征是1000维,我们想要把它降到500维。降维的过程就是找个一个从100 阅读全文
posted @ 2017-03-15 09:31 nolonely 阅读(2536) 评论(0) 推荐(0) 编辑
摘要:转自http://blog.csdn.net/zouxy09/article/details/17292011 终于到SVM的实现部分了。那么神奇和有效的东西还得回归到实现才可以展示其强大的功力。SVM有效而且存在很高效的训练算法,这也是工业界非常青睐SVM的原因。 前面讲到,SVM的学习问题可以转 阅读全文
posted @ 2017-03-13 10:32 nolonely 阅读(7425) 评论(1) 推荐(2) 编辑
摘要:转自http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020216.html 几个特别有用 的链接: 更加深入理解 阅读全文
posted @ 2017-02-28 08:53 nolonely 阅读(1299) 评论(0) 推荐(0) 编辑
摘要:转自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html k-mean算法与EM K-mean 阅读全文
posted @ 2017-02-24 20:16 nolonely 阅读(239) 评论(0) 推荐(0) 编辑
摘要:转自http://blog.csdn.net/zouxy09/article/details/8537620/ 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的 阅读全文
posted @ 2017-02-24 17:08 nolonely 阅读(736) 评论(0) 推荐(0) 编辑
摘要:前向、后向算法解决的是一个评估问题,即给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型。Baum-Welch算法解决的是一个模型训练问题,即参数估计,是一种无监督的训练方法,主要通过EM迭代实现;维特比算法解决的是给定 一个模型和某个特定的输出序列,求最可能产生这个输出的状态序列。如 阅读全文
posted @ 2017-02-23 20:14 nolonely 阅读(234) 评论(0) 推荐(0) 编辑
摘要:判别式模型(Discriminative Model)是直接对条件概率p(y|x;θ)建模。常见的判别式模型有线性回归模型、线性判别分析、支持向量机SVM、神经网络、boosting、条件随机场等。 举例:要确定一个羊是山羊还是绵羊,用判别模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征 阅读全文
posted @ 2017-02-23 20:02 nolonely 阅读(13439) 评论(0) 推荐(4) 编辑
摘要:数据降维的目的:数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。 数据降维的好处:降维可以方便数据可视化+数据分析+数据压缩+数据提取等。 降维方法 __ 属性选择:过滤法;包装法;嵌入法; |_ 映射方法 _线性映射方法:PCA、LDA、 阅读全文
posted @ 2017-02-23 19:51 nolonely 阅读(12545) 评论(0) 推荐(0) 编辑
摘要:特征选择方法初识: 1、为什么要做特征选择在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择的确切含义将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。3、特征选取的原则获取尽可能小的特征子 阅读全文
posted @ 2017-02-23 19:36 nolonely 阅读(53955) 评论(1) 推荐(4) 编辑
摘要:聚类度量包括性能度量和距离计算, 性能度量 对数据集D={x1,x2,...,xm},假定通过聚类给出的策划为C={C1,C2,...,Ck},参考模型给出的簇划分为C‘={C'1,C'2,...C'k},相应的λ和λ‘分别表示C和C’对应的簇标记向量,将样本两两配对考虑, 由于每一个样本中仅能出现 阅读全文
posted @ 2016-12-23 17:10 nolonely 阅读(1199) 评论(0) 推荐(0) 编辑
摘要:(1)k-mean聚类 k-mean聚类比较容易理解就是一个计算距离,找中心点,计算距离,找中心点反复迭代的过程, 给定样本集D={x1,x2,...,xm},k均值算法针对聚类所得簇划分C={C1,C2,...,Ck}最小化平方误差 μi表示簇Ci的均值向量,在一定程度上刻画了簇内样本围绕均值向量 阅读全文
posted @ 2016-12-23 16:19 nolonely 阅读(817) 评论(0) 推荐(0) 编辑
摘要:随机森林=随机+森林 森林顾名思义就是很多棵树用来做分类问题,在之前的博客中已经介绍了决策树的构建过程,森林则是这很多棵树的一个集合,主要思路是,每一颗树都有一个投票,考虑这些所有树的投票,选择票数最多的结果作为最终的结果 随机就是有很多偶然性,这里的随机包括训练每棵树的数据集是随机的(数据集采用的 阅读全文
posted @ 2016-12-23 15:42 nolonely 阅读(548) 评论(0) 推荐(0) 编辑
摘要:别人的决策树笔记:http://blog.csdn.net/sb19931201/article/details/52491430 决策树是一种最常见的分类模型,决策树是基于树结构来进行决策的,一个决策树的图如下所示 决策过程的最终结论对应了我们希望的判定结果。 决策树的基本学习算法如下: 构建树的 阅读全文
posted @ 2016-12-23 10:50 nolonely 阅读(1442) 评论(0) 推荐(0) 编辑
摘要:(1)支持向量的基本形式 对于一个分类问题,如果用PLA算法,可能会有多种分类策略,如下图所示,很明显,第三个图是一个最佳的分类策略,因为在第三个图中,边界上的数据允许的测量误差可以更大一些。对未见示例的泛化性更强。这种方法就是支持向量机。 我们想要得到的是找到一条直线能够把样本数据正确的分开,而且 阅读全文
posted @ 2016-12-20 08:29 nolonely 阅读(608) 评论(0) 推荐(0) 编辑
摘要:(1)梯度下降法 在迭代问题中,每一次更新w的值,更新的增量为ηv,其中η表示的是步长,v表示的是方向 要寻找目标函数曲线的波谷,采用贪心法:想象一个小人站在半山腰,他朝哪个方向跨一步,可以使他距离谷底更近(位置更低),就朝这个方向前进。这个方向可以通过微分得到。选择足够小的一段曲线,可以将这段看做 阅读全文
posted @ 2016-12-15 17:50 nolonely 阅读(45391) 评论(0) 推荐(1) 编辑
摘要:多分类问题:有N个类别C1,C2,...,Cn,多分类学习的基本思路是“拆解法”,即将多分类任务拆分为若干个而分类任务求解,最经典的拆分策略是:“一对一”,“一对多”,“多对多” (1)一对一 给定数据集D={(x1,y1),(x2,y2),...,(xn,yn)},yi€{c1,c2,...,cN 阅读全文
posted @ 2016-12-15 15:44 nolonely 阅读(16067) 评论(0) 推荐(1) 编辑
摘要:这里主要总结Linear Regression,Linear Classification,Logistic Regression。 1.Linear Regression 线性回归的基本思想:寻找直线/平面/超平面,使得输入数据的残差最小 线性回归算法: 最终的线性回归的结果为: 其中:X+ 的求 阅读全文
posted @ 2016-12-14 21:34 nolonely 阅读(717) 评论(0) 推荐(0) 编辑
摘要:错误衡量(Error Measure) 有两种错误计算方法: 第一种叫0/1错误,只要【预测≠目标】则认为犯错,通常用于分类;通常选择,错误比较大的值作为y˜的值 第二种叫平方错误,它衡量【预测与目标之间的距离】,通常用于回归。通常选择,错误均值作为y˜的值 举例说明: 还有一种错误叫做,均值错误e 阅读全文
posted @ 2016-12-13 11:28 nolonely 阅读(376) 评论(0) 推荐(0) 编辑