随笔分类 - 机器学习 数据挖掘
摘要:决策树 决策树是一种基本的分类与回归方法,通常包括三个步骤:特征选择、决策树的生成和决策树的修剪。 树由节点和有向边组成,节点分内部节点(特征或属性)和叶节点(表示一个类) 用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点。重复上述过程,直到达到叶节点。 首先
阅读全文
摘要:模型预测流程(Predictive Modelling Process): 评估矩阵:对于不均衡样本,我们选用F1值而非准确性(accuracy score)来评估,精确度和召回率也可用于本分类问题。 逻辑回归是一种广义的线性回归分析模型。 回归就是表明自变量x与因变量y的关系,即y=f(x)。如医
阅读全文
摘要:为啥a有4个策略而b有3个策略? 看到下面(树->矩阵)这个就了然了: 强化学习的根本目的在于最大化奖励【optimize your long term expected reward(获得更多的奖励)】 MiniMAx 假设所有人都在寻求最优,达到最大化奖励 来吧,再加点不确定性进来~~愉快的玩耍
阅读全文
摘要:非常好的一个导入例子 如图在每一个格子中我们都有四种移动策略(action:U,D,L,R),但理想总是美好的,现实总是骨干的。有些时候,我们想着的方向并不一定是我们移动的方向,所以我们引入概率。正确移动的概率为0.8,错误移动的概率各为0.1(不允许倒退) MArkov决策过程(MDP): 特性—
阅读全文
摘要:统计学基本概念之均值、方差、协方差等,参看http://pinkyjie.com/2010/08/31/covariance/ 散布矩阵前乘以系数1/n就可以得到协方差矩阵,可以利用散度矩阵做PCA
阅读全文
摘要:特征选择是指从全部特征中选取一个特征子集, 剔除不相关(irrelevant)或冗余(redundant )特征,可以减少特征个数,提高模型精确度,从而减少运行时间。此外,较少的特征使研究人员易于理解数据产生的过程。 特征选择全过程: 进行特征选择前需要先给出一个评价函数(即评价一个特征子集好坏程度
阅读全文
摘要:如上图,我们直到右边两个人的身高体重以及穿衣尺码,想要知道左边人的穿衣尺码,若单纯将身高体重数值相加,得到与预期相悖的结论。这是由于身高范围在[115,175],而体重范围在[5,7],两者范围相差较大,应该先归一化。 缩放公式: sklearn中相关实现:
阅读全文
摘要:http://www.naftaliharris.com/blog/visualizing-k-means-clustering/ 一片不错的博文:http://coolshell.cn/articles/7779.html K-means算法如下: K-Means主要有两个最重大的缺陷: k是事先
阅读全文
摘要:解决隐马模型中预测问题的算法是(维特比算法) 前向、后向算法解决的是一个评估问题,即给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型 Baum-Welch算法解决的是一个模型训练问题,即参数估计,是一种无监督的训练方法,主要通过EM迭代实现 维特比算法解决的是给定 一个模型和某个特定
阅读全文
摘要:深入浅出:所谓“深入”,指得是从数据挖掘的原理与经典算法入手。其一是要了解算法,知道什么场景应当应用什么样的方法;其二是学习算法的经典思想,可以将它应用到其他的实际项目之中;其三是理解算法,让数据挖掘的算法能够应用到您的项目开发之中去。所谓“浅出”,指得是将数据挖掘算法的应用落实到实际的应用中。 根
阅读全文
摘要:分类的目标是,使得类别内的点距离越近越好(集中),类别间的点越远越好。 在机器学习领域,不少的地方都要用到特征值的计算,比如说图像识别、pagerank、LDA、PCA等等。 LDA是最简单的线性分类器,可以看做是简化版的SVM。LDA和PCA有较强的相关性,从推导、求解到算法最终的结果都有相当的相
阅读全文
摘要:提取特征脸(eigen face)有两个目的,首先是为了压缩数据,对于一张图片,只需要保存其最重要的部分,然后是为了使得程序更容易处理,在提取主要特征的时候,很多的噪声都被过滤掉了。 参考网址http://www.rosoo.net/a/201407/17016.html SIFT尺度不变特征变换
阅读全文

浙公网安备 33010602011771号