随笔分类 - 机器学习
主要记录机器学习算法,常见问题,及解决方案!仅代表个人观点,如有异议,我们可以共同讨论!
摘要:奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性。 特征值分解和奇异值分解两者有着很紧密的关系,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧:1 特征值:如果
阅读全文
摘要:第一种降维方法称为主成分分析(PCA)。在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差做大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。我们会发现,大部分方
阅读全文
摘要:频繁项集发现算法FP-grouth,它基于Apriori构建,但在完成相同任务时采用了一些不同的技术,这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对,即常在一块出现的元素项的集合FP树,这种做法的执行速度要快于Apriori,通常性能要好俩个数量级以上。该方法虽然能
阅读全文
摘要:Aprior算法 优点:易编码实现 缺点:在大数据集上可能较慢 适用数据类型:数值型或者标称型数据。 关联分析是一种在大规模数据集中寻找有趣关系的任务,这些关系可以有两种形式:频繁项集或者这关联规则。 频繁项集是经常出现在一块的物品集合,关联规则暗示两种物品之间可能存在很强的关系。 一个项集的支持度
阅读全文
摘要:一种用于度量聚类效果的指标使SSE(误差平方和),SSE值越小表示数据点越接近于他们的质心,聚类效果也越好。因为对误差取了平方,因此更加重视那些远离中心的点。一种肯定可以降低SSE值的方法是增加簇的个数,但这违背了聚类的目标。聚类的目标是在保持簇数目不变的情况下提高簇的质量 二分 K-均值算法 为克
阅读全文
摘要:决策树不断将数据切分成小数据集,直到所有目标变量完全相同,或者数据不能再切分为止,决策时是一种贪心算法,它要在给定的时间内做出最佳选择,但并不关心能否达到最优 树回归 优点:可以对复杂和非线性的数据建模 缺点:结果不易理解 适用数据类型:数值型和标称型数据 实现CART算法和回归树,回归树和分类树的
阅读全文
摘要:线性回归优点:结果易于理解,计算上不复杂缺点:对非线性的数据拟合不好适用数据类型:数值型和标称型数据horse=0.0015*annualSalary-0.99*hoursListeningToPulicRadio这就是所谓的回归方程,其中的0.0015和-0.99称作回归系数,求这些回归系数的过程
阅读全文
摘要:元算法是对其他算法进行组合的一种方式。单层决策树实际上是一个单节点的决策树。adaboost优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整缺点:对离群点敏感适用数据类型:数值型和标称型数据bagging:基于数据随机重抽样的分类器构建方法自举汇聚法,也称为bagging方法,是在从
阅读全文
摘要:SVM有很多种实现,但是本章只关注其中最流行的一种实现,即序列最小化(SMO)算法在此之后,我们将介绍如何使用一种称为核函数的方式将SVM扩展到更多的数据集上基于最大间隔的分割数据优点:泛化错误率低,计算开销不大,结果易解释缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题适
阅读全文
摘要:假设现在有一些点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,依次进行分类。Logistic回归的一般过程(1)收集数据:采用任意方法收集数据(2)准备数据:由于需要进行距离计算,
阅读全文
摘要:朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感适用数据类型:标称型数据朴素贝叶斯决策理论的核心思想:选择具有最高概率的决策朴素贝叶斯的一般过程(1)收集数据:可以使用任何方法。(2)准备数据:需要数值型或者布尔型数据。(3)分析数据:有大量特征时,
阅读全文
摘要:我们经常使用决策树处理分类问题,近年来的调查表明决策树也是经常使用的数据挖掘算法K-NN可以完成多分类任务,但是它最大的缺点是无法给出数据的内在含义,决策树的主要优势在于数据形式非常容易理解决策树的优缺点:优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据缺点:可能
阅读全文
摘要:K近邻算法概述优点:精度高、对异常数据不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集
阅读全文
摘要:线性回归 回归是一种极易理解的模型,就相当于y=f(x),表明自变量 x 和因变量 y 的关系。最常见问题有如 医生治病时的望、闻、问、切之后判定病人是否生了什么病,其中的望闻问切就是获得自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。 最简单的回归是线性回归,如图1.a所示,X
阅读全文
摘要:一、主成分分析 二、因子分析法 三、聚类分析 四、最小二乘与多项式拟合 五、方差分析法 六、逼近理想点排序法 七、动态加权法 八、灰色关联分析法 九、灰色预测法 十、模糊综合评价法 十一、时间序列分析法 十二、蒙特卡洛仿真模型 十三、BP神经网络方法 十四、数据包络分析法 十五、多因素方差分析法(基
阅读全文
摘要:隐马尔科夫模型是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。隐马尔科夫模型由初始概率分布、状态转移概率分布以及观测概率分布确定。 1、隐马尔科夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态的序列,再由各个状态随机生成一个观测
阅读全文
摘要:1、提升方法是将弱学习算法提升为强学习算法的统计学习方法。在分类学习中,提升方法通过反复修改训练数据的权值分布,构建一系列基本分类器(弱分类器),并将这些基本分类器线性组合,构成一个强分类器,代表性的提升方法是adaboost,adaboost模型是弱分类器的线性组合 2、adaboost算法的特点
阅读全文
摘要:特征降维方法包括:Lasso,PCA,小波分析,LDA,奇异值分解SVD,拉普拉斯特征映射,SparseAutoEncoder,局部线性嵌入LLE,等距映射Isomap。 1. LASSO通过参数缩减达到降维的目的 LASSO(Least absolute shrinkage and selecti
阅读全文
摘要:- 摘自《统计学习方法》 李航 第五章 《机器学习》 周志华 第四章 决策树算法属于生成算法,通常包括3个步骤:特征选择、决策树的生成、决策树的剪枝 决策树学习本质上是从训练集中归纳出一组分类规则。 决策树学习的损失函数通常是正则化的极大似然函数。 决策树的学习算法通常是采用启发式的方法,近似求解最
阅读全文
摘要:摘自《统计学习方法》 李航 第五章 决策树学习通常包括3个步骤:特征选择、决策树的生成、决策树的剪枝 决策树学习本质上是从训练集中归纳出一组分类规则。 决策树学习的损失函数通常是正则化的极大似然函数。 决策树的学习算法通常是采用启发式的方法,近似求解最优化问题 特征选择问题 特征选择在于选取对训练数
阅读全文

浙公网安备 33010602011771号