随笔分类 -  Data Mining & ML

上一页 1 2 3 4 下一页

Machine Learning in Action -- FP-growth
摘要:要解决的问题,频繁项集 最暴力的方法,就是遍历所有的项集组合,当然计算量过大 最典型的算法apriori, 算法核心思想,当一个集合不是频繁项集,那么它的超集也一定不是频繁项集 这个结论是很明显的,基于这样的思路,可以大大减少频繁项集的候选项 因为你只要发现一个集合非频繁项集,那么他所有的超集都可以忽略 但apriori算法的问题是,计算每个候选项的出现频率的时候都需要遍... 阅读全文

posted @ 2014-09-28 12:53 fxjwind 阅读(1076) 评论(0) 推荐(0)

Machine Learning in Action -- 树回归
摘要:前面介绍线性回归,但实际中,用线性回归去拟合整个数据集是不太现实的,现实中的数据往往不是全局线性的 当然前面也介绍了局部加权线性回归,这种方法有些局限 这里介绍另外一种思路,树回归 基本思路,用决策树将数据集划分成若干个子集,然后再子集上再用线性回归进行拟合 决策树是种贪心算法,最简单典型的决策树算法是ID3 ID3,每次都选取最佳特征来进行划分,并且按照特征的取值来决定划分的个数... 阅读全文

posted @ 2014-09-12 16:57 fxjwind 阅读(1195) 评论(0) 推荐(0)

Machine Learning in Action -- 回归
摘要:机器学习问题分为分类和回归问题 回归问题,就是预测连续型数值,而不像分类问题,是预测离散的类别 至于这类问题为何称为回归regression,应该就是约定俗成,你也解释不通 比如为何logistic regression叫逻辑回归,明明解决的是分类问题,而且和逻辑没有半点关系 谈到回归,最简单的就是线性回归 用直线去拟合数据点, 我们通常用平方误差来作为... 阅读全文

posted @ 2014-09-05 16:42 fxjwind 阅读(852) 评论(0) 推荐(0)

统计学习方法笔记 -- 隐马尔可夫模型
摘要:参考,隐马尔可夫模型(HMM)攻略 首先看看确定的状态序列,这种状态序列中状态的变化是确定的,比如 红绿灯,一定是绿灯->红灯->黄灯,这样的状态序列 当然也有些不确定状态序列,比如 天气,今天是晴天,你不能确定明天也一定是晴天或雨天 于是我们用概率来表示这种不确定性,称为马尔可夫过程 (Markov Process),马尔可夫过程的阶数表示当前状态依赖于过去几个状态,出于... 阅读全文

posted @ 2014-09-01 20:47 fxjwind 阅读(2455) 评论(0) 推荐(0)

Machine Learning in Action -- AdaBoost
摘要:初始的想法就是,结合不同的分类算法来给出综合的结果,会比较准确一些 称为ensemble methods or meta-algorithms,集成方法或元算法 集成方法有很多种,可以是不同算法之间的,也可以是同一个算法但不同参数设置之间的,也可以是将数据集分成多分给不同的分类器之间的 总的来说,有3个维度可以进行集成,算法,算法参数和数据集 下面简单介绍两种比较流行的元算法思路, ... 阅读全文

posted @ 2014-08-28 11:09 fxjwind 阅读(1016) 评论(0) 推荐(0)

统计学习方法笔记 -- Boosting方法
摘要:AdaBoost算法 基本思想是,对于一个复杂的问题,单独用一个分类算法判断比较困难,那么我们就用一组分类器来进行综合判断,得到结果,“三个臭皮匠顶一个诸葛亮” 专业的说法, 强可学习(strongly learnable),存在一个多项式算法可以学习,并且准确率很高 弱可学习(weakly learnable),存在一个多项式算法可以学习,但准确率略高于随机猜测 并且可以证明强可学习... 阅读全文

posted @ 2014-08-26 16:11 fxjwind 阅读(1236) 评论(0) 推荐(0)

Andrew Ng机器学习公开课笔记–Reinforcement Learning and Control
摘要:网易公开课,第16课 notes,12 前面的supervised learning,对于一个指定的x可以明确告诉你,正确的y是什么 但某些sequential decision making问题,比如下棋或直升机自动驾驶 无法确切知道,下一步怎么样是正确的,因为这是一个连续和序列化的决策,比如直到最终直升机crash或下棋输了,你才知道之前的选择是不好的,但中间那么多步决策,到底... 阅读全文

posted @ 2014-08-21 16:55 fxjwind 阅读(1976) 评论(0) 推荐(0)

Andrew Ng机器学习公开课笔记–Independent Components Analysis
摘要:网易公开课,第15课 notes,11 参考, PCA本质是旋转找到新的基(basis),即坐标轴,并且新的基的维数大大降低 ICA也是找到新的基,但是目的是完全不一样的,而且ICA是不会降维的 对于ICA,最经典的问题,“鸡尾酒会”问题 在鸡尾酒会,上很多人同时在说话,还有背景音乐,如果我们放若干个话筒进行声音采集 是否可以从采集到的数据中,分离出每个人独立的声音 假设... 阅读全文

posted @ 2014-08-15 16:40 fxjwind 阅读(814) 评论(0) 推荐(0)

Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)
摘要:网易公开课,第14, 15课 notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的 这里介绍的是另外一种降维的方法,Principal Components Analysis (PCA), 比Factor Analysis更为直接,计算也简单些 参考,A Tutorial on Principal Component Analysi... 阅读全文

posted @ 2014-08-13 15:59 fxjwind 阅读(2137) 评论(0) 推荐(0)

Andrew Ng机器学习公开课笔记 – Factor Analysis
摘要:网易公开课,第13,14课 notes,9 本质上因子分析是一种降维算法 参考,http://www.douban.com/note/225942377/,浅谈主成分分析和因子分析 把大量的原始变量,浓缩成少数几个因子变量 原始变量,代表浅层的表面现象,所以一定是很多和繁杂的 而因子变量,是代表深层的本质,因,是无法直接观察到的 所以因子分析,就是拨开现象发现本质的... 阅读全文

posted @ 2014-08-07 15:49 fxjwind 阅读(1769) 评论(0) 推荐(0)

Andrew Ng机器学习公开课笔记 -- Mixtures of Gaussians and the EM algorithm
摘要:网易公开课,第12,13课 notes,7a, 7b,8 从这章开始,介绍无监督的算法 对于无监督,当然首先想到k means, 最典型也最简单,有需要直接看7a的讲义 Mixtures of Gaussians 如果要理解Mixtures of Gaussians,那先回去复习一下Gaussians Discriminant Analysis,高斯判别分析 首先高斯判别... 阅读全文

posted @ 2014-08-07 00:31 fxjwind 阅读(1485) 评论(0) 推荐(0)

Andrew Ng机器学习公开课笔记 -- Online Learning
摘要:网易公开课,第11课 notes,http://cs229.stanford.edu/notes/cs229-notes6.pdf 和之前看到的batch learning算法不一样,batch learning一定是先用训练集进行训练,然后才进行预测 但是online learning,不必要一定有训练的过程,可以一边预测的同时一边训练 这个其实很现实,系统上线前也许很难收集到数... 阅读全文

posted @ 2014-08-02 23:19 fxjwind 阅读(2464) 评论(0) 推荐(0)

Machine Learning in Action -- Support Vector Machines
摘要:虽然SVM本身算法理论,水比较深,很难懂 但是基本原理却非常直观易懂,就是找到与训练集中支持向量有最大间隔的超平面 形式化的描述: 其中需要满足m个约束条件,m为数据集大小,即数据集中的每个数据点function margin都是>=1,因为之前假设所有支持向量,即离超平面最近的点,的function margin为1 对于这种有约束条件的最优化问题,用拉格朗日定理,于是得到如下的形式... 阅读全文

posted @ 2014-07-24 16:43 fxjwind 阅读(570) 评论(0) 推荐(0)

Machine Learning in Action -- Logistic regression
摘要:这个系列,重点关注如何实现,至于算法基础,参考Andrew的公开课 相较于线性回归,logistic回归更适合用于分类 因为他使用Sigmoid函数,因为分类的取值是0,1 对于分类,最完美和自然的函数,当然是Heaviside step function,即0-1阶跃函数,但是这个函数中数学上有时候比较难处理 所以用Sigmoid函数来近似模拟阶跃函数, 可以看到Sigmo... 阅读全文

posted @ 2014-07-22 14:32 fxjwind 阅读(795) 评论(0) 推荐(0)

Andrew Ng机器学习公开课笔记 -- Regularization and Model Selection
摘要:网易公开课,第10,11课 notes,http://cs229.stanford.edu/notes/cs229-notes5.pdf Model Selection 首先需要解决的问题是,模型选择问题,如何来平衡bais和variance来自动选择模型?比如对于多项式分类,如何决定阶数k,对于locally weighted regression如何决定窗口大小,对于SVM如何... 阅读全文

posted @ 2014-06-25 20:21 fxjwind 阅读(1349) 评论(0) 推荐(0)

Andrew Ng机器学习公开课笔记 -- 学习理论
摘要:网易公开课,第9,10课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法 Bias/variance tradeoff 还是用这组图,学习算法追求的是generalization error(对未知数据的预测误差),而不是training error(只是对训练集) ... 阅读全文

posted @ 2014-06-06 14:08 fxjwind 阅读(2556) 评论(0) 推荐(2)

Andrew Ng机器学习公开课笔记 -- 支持向量机
摘要:网易公开课,第6,7,8课 notes,http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM-支持向量机算法概述, 这篇讲的挺好,可以参考 先继续前面对线性分类器的讨论, 通过机器学习算法找到的线性分类的线,不是唯一的,对于一个训练集一般都会有很多线可以把两类分开,这里的问题是我们需要找到best的那条线 首先需要定义Ma... 阅读全文

posted @ 2014-04-24 16:02 fxjwind 阅读(4107) 评论(0) 推荐(1)

Andrew Ng机器学习公开课笔记 -- 朴素贝叶斯算法
摘要:网易公开课,第5,6课 notes,http://cs229.stanford.edu/notes/cs229-notes2.pdf 前面讨论了高斯判别分析,是一种生成学习算法,其中x是连续值 这里要介绍第二种生成学习算法,Naive Bayes算法,其中x是离散值的向量 这种算法常用于文本分类,比如分类垃圾邮件 首先,如何表示一个文本,即x? 以上面这种向量来表示... 阅读全文

posted @ 2014-04-23 18:08 fxjwind 阅读(1532) 评论(0) 推荐(0)

Andrew Ng机器学习公开课笔记 -- Generative Learning algorithms
摘要:网易公开课,第5课 notes,http://cs229.stanford.edu/notes/cs229-notes2.pdf 学习算法有两种,一种是前面一直看到的,直接对p(y|x; θ)进行建模,比如前面说的线性回归或逻辑回归,这种称为判别学习算法(discriminative learning algorithms) 另外一种思路,就是这里要谈的,称为生成学习算法(genera... 阅读全文

posted @ 2014-04-08 18:24 fxjwind 阅读(1667) 评论(0) 推荐(0)

Andrew Ng机器学习公开课笔记 -- Generalized Linear Models
摘要:网易公开课,第4课 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 前面介绍一个线性回归问题,符合高斯分布 一个分类问题,logstic回归,符合伯努利分布 也发现他们有些相似的地方,其实这些方法都是一个更广泛的模型族的特例,这个模型族称为,广义线性模型(Generalized Linear Models,GLMs)... 阅读全文

posted @ 2014-04-03 17:52 fxjwind 阅读(1604) 评论(0) 推荐(1)

上一页 1 2 3 4 下一页