摘要:        
声明:本文基于spark的programming guide,并融合自己的相关理解整理而成 Spark应用程序总是包含着一个driver program(驱动程序),它执行着用户的main方法,并且执行大量的并行操作(parallel operations)在集群上. 概述 Spark最主要的抽象就    阅读全文
posted @ 2016-06-30 21:48
XGogo
阅读(812)
评论(0)
推荐(0)
        
            
        
        
摘要:        
Spark简介 spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark S    阅读全文
posted @ 2016-06-30 20:22
XGogo
阅读(8784)
评论(0)
推荐(0)
        
            
        
        
摘要:        
转:https://gist.github.com/wuchong/95630f80966d07d7453b#file-hbasenewapi-scala http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/    阅读全文
posted @ 2016-06-30 20:12
XGogo
阅读(5536)
评论(0)
推荐(0)
        
            
        
        
摘要:        
HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本。这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API。虽然 1.0.0 兼容旧版本的 API,不过还是应该尽早地来熟悉下新版API。并且了解下如何与当下正红的 Spark 结合,进行数据的写入与读取。鉴于    阅读全文
posted @ 2016-06-30 20:10
XGogo
阅读(1826)
评论(0)
推荐(0)
        
            
        
        
摘要:        
've got big RDD(1gb) in yarn cluster. On local machine, which use this cluster I have only 512 mb. I'd like to iterate over values in RDD on my local     阅读全文
posted @ 2016-06-30 20:03
XGogo
阅读(745)
评论(0)
推荐(0)
        
            
        
        
摘要:        
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进    阅读全文
posted @ 2016-06-30 19:58
XGogo
阅读(1294)
评论(0)
推荐(0)
        
            
        
        
摘要:        
I'm trying to write some simple data in HBase (0.96.0-hadoop2) using Spark 1.0 but I keep getting getting serialization problems. Here is the relevant    阅读全文
posted @ 2016-06-30 19:58
XGogo
阅读(707)
评论(0)
推荐(0)
        

浙公网安备 33010602011771号