示例数据模型 HBase中扩展和负载均衡的基本单元成为region,region本质上是以行健排序的连续存储区间。如果region太大,系统会把它们 自动拆分,相反的,就是把多个region合并,以减少存储文件的数量。 HBase中的region等同于数据库分区中的范围划分,它们可以被分配到若干物理 Read More
posted @ 2016-12-29 16:17
jeffery1010
Views(302)
Comments(0)
Diggs(0)
Spark 提供了一个名为spark-submit 的单一工具来跨集群管理器的提交作业,命令如下: bin/spark-submit [options] <app jar | python file> [app options]1、[options]是spark-submit 的标志列表。你可以运行 Read More
posted @ 2016-12-29 13:49
jeffery1010
Views(361)
Comments(0)
Diggs(0)
Spark 使用主从架构,有一个中心协调器和许多分布式worker。 中心协调器被称为driver。Driver 和被称为executor 的大量分布式worker 通信 Driver 运行在它自己的Java 进程,而每个executor 是单独的Java 进程。Driver 和它的所有execut Read More
posted @ 2016-12-29 12:01
jeffery1010
Views(973)
Comments(0)
Diggs(0)

浙公网安备 33010602011771号