摘要: 一、什么是RDD? RDD叫做弹性分布式数据集,是spark中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性、不可变、可分区、里面元素可并行计算的集合。 1.弹性: (1)存储的弹性:内存与磁盘的自动切换 (2)容错的弹性:数据丢失可以自动恢复 (3)计算的弹性:计算出错重试机制 (4)分 阅读全文
posted @ 2024-01-18 18:21 会飞的猪仔 阅读(1254) 评论(0) 推荐(0)
摘要: Spark Streaming用于流式数据处理(准实时,微批次),Spark Streaming支持的数据源很多,例如:kafka、Flume、简单的TCP套接字等,数据输入后可以用Spark的高度抽象原语,如:map、join、reduce、window等进行运算,而结果也可以保存在很多地方,如: 阅读全文
posted @ 2024-01-18 11:42 会飞的猪仔 阅读(81) 评论(0) 推荐(0)