08 2015 档案

摘要:c4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 。c4.5对ID3算法做了相对的改进。如下 1 采用信息增益率代替信息增益。因为使用信息增益时会偏向选取取值更多的属性。 2 在树的构造过程中进行剪枝 3 能够完成对连续属性的离散化处理 4 对不完整数据进行处理c... 阅读全文
posted @ 2015-08-08 10:50 LotorLess 阅读(376) 评论(0) 推荐(0)
摘要:一 什么是HBASE Hbase 是建立在Hadoop HDFS上的一个 分布式的 面向列存储的 开源数据库。来源于google的一篇论文《bigtable;一个结构化数据的分布式存储系统》利用MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 HBase 以... 阅读全文
posted @ 2015-08-06 23:22 LotorLess 阅读(311) 评论(0) 推荐(0)
摘要:一 什么是zookeeper 自己的理解:zookeeper 其实就是个管理员,监控 协调 所有需要同步的设备或进程。 官方: Zookeeper 是一个分布式的,开放源码的应用协调服务。是以Fast paxos 算法为基础,实现同步服务,配置维护和命名服务等分布式应用。 Zookeep... 阅读全文
posted @ 2015-08-06 17:26 LotorLess 阅读(8876) 评论(0) 推荐(1)