摘要:
数据读取与保存 Text文件 基本语法 数据读取:textFile(String) 数据保存:saveAsTextFile(String) Sequence文件 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在Spark 阅读全文
posted @ 2021-11-07 15:09
KaneQi
阅读(47)
评论(0)
推荐(0)
摘要:
RDD创建 根据本地创建 makeRDD: 底层就是使用的parallelize parallelize 读取文件创建 根据读取文件创建RDD spark读取文件的方式: 如果集群配置文件中有配置 HADOOP_CONF_DIR配置,此时默认读取是HDFS文件 【公司一般有配置HADOOP_CONF 阅读全文
posted @ 2021-11-07 15:07
KaneQi
阅读(61)
评论(0)
推荐(0)
摘要:
SparkCore-基本概述 RDD概述 弹性分布式数据集,Spark中最基本的数据抽象。代码中的是一个抽象类,其代表一个弹性、不可变、可分区、内部元素可并行计算的集合 RDD特点 弹性 存储:内存与硬盘自动切换,可以存储在内存或者磁盘中 计算:数据丢失可以自动恢复 容错:计算出错有重试机制 分片: 阅读全文
posted @ 2021-11-07 15:05
KaneQi
阅读(69)
评论(0)
推荐(0)
摘要:
Spark概述 描述:基于内存的快速、通用、可扩展的分析计算引擎 MR与Spark对比 MR 从数据源获取数据,经过map、shuffle、reduce计算,将结果输出到指定位置,其核心是一次计算,不适合迭代计算和图计算 Spark 从数据源获取数据,将计算逻辑封装成RDD,经过特定算子计算,将结果 阅读全文
posted @ 2021-11-07 15:02
KaneQi
阅读(75)
评论(0)
推荐(0)

浙公网安备 33010602011771号