spark - 随笔分类(第2页) - 逸新

spark RDD中transformation的lazy特性深度解析和手动证明--（视频笔记）

摘要：lazy在action执行前是不会进行计算的，只是记录下当前要做的事情。action结果会返回给driver可以避免产生各种众多的中间数据spark lazy 配置验证，是否是完全不执行，可以在shell节点使用一个不存在的hdfs文件路径来创建RDD尝试，如果不报错，则说明没执行如果报错了，则说明... 阅读全文

posted @ 2015-12-28 19:28 逸新阅读(779) 评论(0) 推荐(0)

动手实战创建RDD的三种方式--（视频笔记）

摘要：1、通过scala集合（数组，range）val collection = sc.parallelize(1 to 10000)2、在hdfs或者hbaseval hdfsData = sc.textFile("hdfs://hadoop-1:9000/data/test/test.dat")3、其... 阅读全文

posted @ 2015-12-28 19:27 逸新阅读(530) 评论(0) 推荐(0)

RDD 到底是什么--（视频笔记）

摘要：1、RDD 只读的分区数据集合。2、RDD的依赖关系，生成RDD的血统。3、RDD支持基于工作集的运用。可以显性的将数据存储在内存中，可以支持高效数据重用。4、RDD是分布式数据编程的一种抽象5、RDD的特征a list of partitions（hdfs的一个分片就是一个partition，每个... 阅读全文

posted @ 2015-12-28 19:25 逸新阅读(475) 评论(0) 推荐(0)

RDD产生的技术背景--（视频笔记）

摘要：1、RDD生成：外部文件，别的RDD结果。2、RDD是批量写，可以定位的具体读哪一行。3、在一个数据集中，执行多种或者多次交互式查询4、更好的支持多步骤迭代5、MR 在迭代中必须将中间结果写入磁盘阅读全文

posted @ 2015-12-28 19:23 逸新阅读(213) 评论(0) 推荐(0)

RDD容错处理方式和传统容错处理方式的比较--（视频笔记）

摘要：1、HDFS只能读取，或者通过其他途径创建2、transfrmation是lazy的。3、传统的容错方式，数据检查点或者记录数据的更新容错是分布式最困难的部分。数据检查点：通过数据中心的网络，连接所在的机器之间，复制庞大的数据集。消耗网络和磁盘。记录数据的更新：更新的很多，则记录成本很高。4、RDD... 阅读全文

posted @ 2015-12-28 19:23 逸新阅读(538) 评论(0) 推荐(0)

idea+maven+scala+spark 集成

摘要：1、安装jdk2、安装idea3、安装maven4、安装scalawindows下下载msi安装文件，因为当前spark使用的scala版本为 2.10.4，因此也选择安装2.10.4版本的scala。5、安装idea的scala扩展工具http://blog.csdn.net/stark_sum... 阅读全文

posted @ 2015-12-28 17:09 逸新阅读(5859) 评论(1) 推荐(0)

安装spark笔记

摘要：centOS准备三台机器 hadoop-1,hadoop-2,hadoop-3提前安装好 jdk，python,host name,ssh安装scala下载scala rpm包在/home/${user}/soft/下wget http://www.scala-lang.org/files/arch... 阅读全文

posted @ 2015-12-22 19:36 逸新阅读(255) 评论(0) 推荐(0)

spark概述随笔 // todo

摘要：1、spark是一个apache开源项目2、spark可以提升程序运行速度，spark在100TB数据比赛中战胜hadoop，并且只使用了十分之一的机器。3、spark提供了java，scala和python语言api支持4、spark可以与hadoop生态系统和数据源很好的集成。5、spark可以... 阅读全文

posted @ 2015-12-21 15:49 逸新阅读(439) 评论(0) 推荐(0)

spark实时运算

摘要：spark实时运算阅读全文

posted @ 2015-12-20 23:54 逸新阅读(186) 评论(0) 推荐(0)

逸新

随笔分类 - spark

公告