摘要:        
键值对RDD通常用来进行聚合计算。通过ETL将数据转化为键值对形式。 PairRDD是很多程序的构成要素,提供了并行操作各个键或跨节点重新进行数据分组的操作接口。 pair RDD提供reduceByKey()可以分别规约每个键对应的数据,join()把两个RDD中键相同的元素组合到一起。 Pair    阅读全文
        
            posted @ 2020-03-03 16:38
Tanglement
阅读(263)
评论(0)
推荐(0)
        
        
            
        
        
摘要:        
HDFS组成架构 NameNode 管理HDFS的名称空间 配置副本策略,fsimage和edit 管理数据块block映射信息 处理客户端读写请求 DataNode 存储实际的数据块 执行数据块的读写操作 Client 文件切分,split成block 与NameNode交互,获取数据块位置信息     阅读全文
        
            posted @ 2020-03-03 14:49
Tanglement
阅读(263)
评论(0)
推荐(1)
        
        
            
        
        
摘要:        
RDD创建 每个RDD被分为多个分区,这些分区运行在集群的不同节点上。 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里driver分发驱动器程序中的对象集合(list和set)。textFile()和parallelize(). RDD支持两种类型的操作:转换操作和行动操作。惰    阅读全文
        
            posted @ 2020-03-03 14:36
Tanglement
阅读(185)
评论(0)
推荐(0)
        
        
 
                     
                    
                 
                    
                 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号