cloudera分为两个部分:CDH和CM。CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera公司发布的Hadoop版本,封装了Apache Hadoop,提供Hadoop所有的服务,包括HDFS,YARN,MapReduce以及各种相关的comp Read More
最近重新看了《机器学习实战》第八章:预测数值型数据:回归。发现了一个以前没有重视的问题,规则化(regularization),通过网上各种查找资料,发现规则化对数据的特征选择,防止回归模型过拟合都有非常大的帮助。 简单的讲,规则化就是给损失函数(cost function)多项式再加上一项,使得训 Read More
在使用机器学习算法进行分类预测的过程中,往往最困难的部分在于如何提高模型预测的准确率。有时候当我们辛辛苦苦准备了数据集,进行了繁琐的数据预处理,编码,提交到集群完成了模型训练之后,忽然发现预测的准确率低到让人无语,笔者曾经遇到过进行0,1分类,结果训练出来的模型准确率是51.8%,这和人工随机分类几 Read More
何为回归?“回归”一词是由达尔文的表兄弟Francis Galton发明的。Galton于1877年完成了第一次回归预测,目的是根据上一代豌豆种子(双亲)的尺寸来预测下一代豌豆种子(孩子)的尺寸。Galton在大量对象上应用了回归分析,甚至包括人的身高预测。他注意到,如果双亲的高高度比平均高度高,他... Read More
在Oracle收购了SUN公司之后, MySQL很不幸的落在了Oracle的手中,MySQL与Oracle DB存在竞争关系,很可能导致Oracle公司影响MySQL的开发与开放。MySQL之父Widenius在意识到Oracle会对MySQL做动作之前对MySQL另开了一个Branch:Mar... Read More
数据计算和结果展示一直是数据挖掘领域的难点,一般情况下,数据都拥有超过三维,维数越多,处理上就越吃力。所以,采用降维技术对数据进行简化一直是数据挖掘工作者感兴趣的方向。 对数据进行简化的好处:使得数据集更易于使用,降低算法的计算开销,去除噪声,使得结果易懂。 主成分分析法(PCA)是一种常用的降维技 Read More
关联分析是一种在大规模数据集中寻找有趣关系的任务,这些关系有两种形式:频繁项集和关联规则。频繁项集是经常出现在一起的物品的集合,关联规则暗示两种物品之间可能存在的很强的关系。如何寻找数据集中的频繁或关联关系呢?主要是通过支持度和可信度。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信... Read More