随笔分类 - DM
摘要:最近重新看了《机器学习实战》第八章:预测数值型数据:回归。发现了一个以前没有重视的问题,规则化(regularization),通过网上各种查找资料,发现规则化对数据的特征选择,防止回归模型过拟合都有非常大的帮助。 简单的讲,规则化就是给损失函数(cost function)多项式再加上一项,使得训
阅读全文
摘要:前阵子做了一些IT opreation analysis的research,从产线上取了一些J2EE server运行状态的数据(CPU,Menory...),打算通过训练JVM的数据来建立分类模型,用于server状态的分类。这个过程中发现最难的地方就是构建训练数据集,训练数据必须要有明确的typ
阅读全文
摘要:在使用机器学习算法进行分类预测的过程中,往往最困难的部分在于如何提高模型预测的准确率。有时候当我们辛辛苦苦准备了数据集,进行了繁琐的数据预处理,编码,提交到集群完成了模型训练之后,忽然发现预测的准确率低到让人无语,笔者曾经遇到过进行0,1分类,结果训练出来的模型准确率是51.8%,这和人工随机分类几
阅读全文
摘要:何为回归?“回归”一词是由达尔文的表兄弟Francis Galton发明的。Galton于1877年完成了第一次回归预测,目的是根据上一代豌豆种子(双亲)的尺寸来预测下一代豌豆种子(孩子)的尺寸。Galton在大量对象上应用了回归分析,甚至包括人的身高预测。他注意到,如果双亲的高高度比平均高度高,他...
阅读全文
摘要:FP - growth是一种比Apriori更高效的发现频繁项集的方法。FP是frequent pattern的简称,即常在一块儿出现的元素项的集合的模型。通过将数据集存储在一个特定的FP树上,然后发现频繁项集或者频繁项对。通常,FP-growth算法的性能比Apriori好两个数量级以上。 ...
阅读全文
摘要:数据计算和结果展示一直是数据挖掘领域的难点,一般情况下,数据都拥有超过三维,维数越多,处理上就越吃力。所以,采用降维技术对数据进行简化一直是数据挖掘工作者感兴趣的方向。 对数据进行简化的好处:使得数据集更易于使用,降低算法的计算开销,去除噪声,使得结果易懂。 主成分分析法(PCA)是一种常用的降维技
阅读全文
摘要:关联分析是一种在大规模数据集中寻找有趣关系的任务,这些关系有两种形式:频繁项集和关联规则。频繁项集是经常出现在一起的物品的集合,关联规则暗示两种物品之间可能存在的很强的关系。如何寻找数据集中的频繁或关联关系呢?主要是通过支持度和可信度。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信...
阅读全文
摘要:当做重要决定时,大家可能都会吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法背后的思路。元算法是对其他算法进行组合的一种方式。自举汇聚法(bootstrap aggregating),也称为bagging方法,是从原始数据集选择S次后得到S个新数据集的一种技术。新数据...
阅读全文
摘要:Logistic回归也是一种分类算法,其主要思想是:根据现有数据对分类边界建立回归公式,以此进行分类。简单的说就是采用Logistic回归函数,接受所有的特征值输入,然后输出类别。Logistic函数又叫sigmoid函数:形状为:从上图容易看出,输入t,在x!=0的情况下,P(t)大于0.5 或小...
阅读全文
摘要:“贝叶斯定理是一则关于随机事件A和B的条件概率定理,其中P(A|B)是在B发生的情况下A发生的可能性。”---百度百科朴素贝叶斯是贝叶斯决策理论的一部分,贝叶斯决策定理的简单解释:p1(x,y)表示数据点(x,y)属于类别1的概率p2(x,y)表示数据点(x,y)属于类别2的概率那么对于一个新数据点...
阅读全文
摘要:基本概念: 根节点:没有入边,但有0条或多条出边 内部节点:恰有一条入边和两条或多条出边 叶节点:恰有一条入边,没有出边,每一个叶节点都赋予一个类标号(class label) 如何建立决策树 Hunt算法 :通过将训练记录相继划分成较纯的子集,以递归的方式建立决策树。 设Dt是与节点t相关联的训练
阅读全文
摘要:寻找数据之间的相似性是数据聚合、分类、拟合预测等应用中常见的场景;寻找数据之间的相异性是异常检测,排除离群点等数据操作必需的步骤。所以计算数据之间的相似度和相异度是数据处理的基本手段,常用的方法是计算数据之间的距离和密度。 相似度顾名思义就是两个对象相似程度的数值度量,常常在0(不相似)和1(完全相
阅读全文
摘要:数据预处理的目标是改善数据挖掘分析工作,减少时间,降低成本和提高质量。 数据预处理是选择分析所需要的数据对象和属性以及创建/改变属性的过程。方法主要包括:聚集,抽样,维归约,特征子集选择,特征创建,离散化和二元化,变量变换。 聚集(Aggregation):将两个或多个对象合并成单个对象。比如通过合
阅读全文
摘要:数据集:数据对象的集合属性(attribute)是对象的性质或特性,它因对象而异,或随时间而变化。测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)属性的不同类型: 标称:标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象。比如:邮政编码...
阅读全文
摘要:最近在自学数据挖掘的知识,看的教材是《数据挖掘导论(完整版)》Pang-Ning Tan 著 。为了更好的归纳总结,开一系列DM的帖子,记录书中的重点和自己的心得。数据挖掘(Data Mining)是一种技术,将传统的数据分析方法与处理大量数据的复杂算法相结合,现阶段主要用来支持商务智能(Busin...
阅读全文

浙公网安备 33010602011771号