摘要:
MapReduce: 分布式并行编程, 也就是多台机器的 CPU 之间的并行编程. MapReduce 帮你自动实现底层. 分而治之的策略: 理念: 实例: 两个文件, 统计这两个文件中单词的个数 key:单词, value:出现次数 reduce: key - value list. 用 Iter 阅读全文
posted @ 2020-02-29 13:58
神之一招
阅读(192)
评论(0)
推荐(0)
摘要:
HBase 可以理解为是一个分布式存储系统, 利用MapReduce 来处理存储在这个分布式存储系统中的数据. 所以可以理解为它是 HDFS 的一层抽象. 所以HBase 可以理解为是一个分布式系统(DB), 但是实际上内存存储的实现是通过 HDFS 实现的. HBase 特点: 是 BigTabl 阅读全文
posted @ 2020-02-29 12:31
神之一招
阅读(96)
评论(0)
推荐(0)
摘要:
JobTracker 分配工作给若干机器. TaskTracker: 负责监督 光纤交换机. 块的概念: 一个块 64M. 还可以是 128M. 大文件切割成这种小块, 然后分布存储在不同机器上. 当然也可以并行处理. 名称节点: 整个 HDFS 集群管家, 负责元数据的存储. (index 数据块 阅读全文
posted @ 2020-02-29 11:48
神之一招
阅读(165)
评论(0)
推荐(0)

浙公网安备 33010602011771号