随笔分类 - spark
摘要:lazy在action执行前是不会进行计算的,只是记录下当前要做的事情。action结果会返回给driver可以避免产生各种众多的中间数据spark lazy 配置验证,是否是完全不执行,可以在shell节点使用一个不存在的hdfs文件路径来创建RDD尝试,如果不报错,则说明没执行如果报错了,则说明...
阅读全文
摘要:1、通过scala集合(数组,range)val collection = sc.parallelize(1 to 10000)2、在hdfs或者hbaseval hdfsData = sc.textFile("hdfs://hadoop-1:9000/data/test/test.dat")3、其...
阅读全文
摘要:1、RDD 只读的分区数据集合。2、RDD的依赖关系,生成RDD的血统。3、RDD支持基于工作集的运用。可以显性的将数据存储在内存中,可以支持高效数据重用。4、RDD是分布式数据编程的一种抽象5、RDD的特征a list of partitions(hdfs的一个分片就是一个partition,每个...
阅读全文
摘要:1、RDD生成:外部文件,别的RDD结果。2、RDD是批量写,可以定位的具体读哪一行。3、在一个数据集中,执行多种或者多次交互式查询4、更好的支持多步骤迭代5、MR 在迭代中必须将中间结果写入磁盘
阅读全文
摘要:1、HDFS只能读取,或者通过其他途径创建2、transfrmation是lazy的。3、传统的容错方式,数据检查点或者记录数据的更新容错是分布式最困难的部分。数据检查点:通过数据中心的网络,连接所在的机器之间,复制庞大的数据集。消耗网络和磁盘。记录数据的更新:更新的很多,则记录成本很高。4、RDD...
阅读全文
摘要:1、安装jdk2、安装idea3、安装maven4、安装scalawindows下 下载msi安装文件,因为当前spark使用的scala版本为 2.10.4,因此也选择安装2.10.4版本的scala。5、安装idea的scala扩展工具http://blog.csdn.net/stark_sum...
阅读全文
摘要:centOS准备三台机器 hadoop-1,hadoop-2,hadoop-3提前安装好 jdk,python,host name,ssh安装scala下载scala rpm包在/home/${user}/soft/下wget http://www.scala-lang.org/files/arch...
阅读全文
摘要:1、spark是一个apache开源项目2、spark可以提升程序运行速度,spark在100TB数据比赛中战胜hadoop,并且只使用了十分之一的机器。3、spark提供了java,scala和python语言api支持4、spark可以与hadoop生态系统和数据源很好的集成。5、spark可以...
阅读全文

浙公网安备 33010602011771号