阿飞藏泪 - 博客园

2024年1月14日

摘要：数据聚合聚合（aggregations）可以让我们极其方便的实现对数据的统计、分析、运算。例如：什么品牌的手机最受欢迎？这些手机的平均价格、最高价格、最低价格？这些手机每月的销售情况如何？实现这些统计功能的比数据库的sql要方便的多，而且查询速度非常快，可以实现近实时搜索效果。聚合的种类阅读全文

posted @ 2024-01-14 17:02 阿飞藏泪阅读(90) 评论(0) 推荐(0)

RDD算子--reduceByKey算子

摘要：阅读全文

posted @ 2024-01-14 16:44 阿飞藏泪阅读(9) 评论(0) 推荐(0)

RDD算子--flatMap算子

摘要：阅读全文

posted @ 2024-01-14 16:43 阿飞藏泪阅读(12) 评论(0) 推荐(0)

RDD算子--map算子

摘要：阅读全文

posted @ 2024-01-14 16:42 阿飞藏泪阅读(11) 评论(0) 推荐(0)

RDD算子

摘要：算子是什么：算子：分布式集合对象上的API称之为算子。算子分类： RDD的算子分为2类： Transformation：转换算子 Action：动作（行动）算子阅读全文

posted @ 2024-01-14 15:10 阿飞藏泪阅读(29) 评论(0) 推荐(0)

RDD的创建

摘要： RDD的创建主要有2种方式: • 通过并行化集合创建 ( 本地对象转分布式RDD ) • 读取外部数据源 ( 读取文件 ) 阅读全文

posted @ 2024-01-14 15:02 阿飞藏泪阅读(26) 评论(0) 推荐(0)

2024年1月13日

RDD的五大特性

摘要：阅读全文

posted @ 2024-01-13 10:37 阿飞藏泪阅读(14) 评论(0) 推荐(0)

RDD定义

摘要： RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset：一个数据集合，用于存放数据的。 Distributed：RDD中的数据是分布式存储的，可用于分布式计算。阅读全文

posted @ 2024-01-13 09:54 阿飞藏泪阅读(63) 评论(0) 推荐(0)

分布式代码执行分析

摘要： SparkContext对象的构建以及 Spark程序的退出, 由 Driver 负责执行具体的数据处理步骤, 由Executor在执行. 其实简单来说就是: 非数据处理的部分由Driver工作数据处理的部分(干活)由Executor工作要知道: Executor不仅仅是一个, 视集群规模, 阅读全文

posted @ 2024-01-13 09:41 阿飞藏泪阅读(16) 评论(0) 推荐(0)

2024年1月12日

IDEA抽取

摘要： IDEA可以抽取一些通用一样的代码为一个方法函数，快捷键为Ctrl+Alt+m 阅读全文

posted @ 2024-01-12 21:47 阿飞藏泪阅读(24) 评论(0) 推荐(0)

daitu66

公告