摘要:
ZooKeeper 是什么? ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop)、蜜蜂(Hive)、小猪(Pig) 的管理员, Apache Hbase和 Apache Solr 以及LinkedIn sensei等项目中都采用到了 Zookeeper。ZooKeeper... 阅读全文
posted @ 2015-07-14 22:00
白开水加糖
阅读(287)
评论(0)
推荐(0)
摘要:
1.什么是分布式文件系统?管理网络中跨多台计算机存储的文件系统称为分布式文件系统。2.为什么需要分布式文件系统了?原因很简单,当数据集的大小超过一台独立物理计算机的存储能力时候,就有必要对它进行分区(partition)并存储到若干台单独计算机上。3.分布式系统比传统的文件的系统更加复杂因为分布式文... 阅读全文
posted @ 2015-07-14 21:06
白开水加糖
阅读(545)
评论(0)
推荐(0)
摘要:
Hive 学习记录Hive介绍:Hive 是起源于Facebook,使得Hadoop进行SQL查询成为可能,进而使得非程序员也可以进进行对其使用;它是一种数据仓库工具,将结构化的数据文件 映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务运行。其优点是学习... 阅读全文
posted @ 2015-07-14 21:03
白开水加糖
阅读(239)
评论(0)
推荐(0)
摘要:
Mapreduce初析 Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们所需要的结果。 我们要学习的就是这个计算模型的运行规则。在... 阅读全文
posted @ 2015-07-14 14:18
白开水加糖
阅读(459)
评论(0)
推荐(0)
摘要:
阅读目录1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Rando... 阅读全文
posted @ 2015-07-14 10:53
白开水加糖
阅读(614)
评论(0)
推荐(0)
摘要:
决策树决策树又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。决策树的决策过程需要从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果。决策... 阅读全文
posted @ 2015-07-14 10:28
白开水加糖
阅读(651)
评论(0)
推荐(0)