上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 70 下一页
摘要: 数据聚合 聚合(aggregations)可以让我们极其方便的实现对数据的统计、分析、运算。例如: 什么品牌的手机最受欢迎? 这些手机的平均价格、最高价格、最低价格? 这些手机每月的销售情况如何? 实现这些统计功能的比数据库的sql要方便的多,而且查询速度非常快,可以实现近实时搜索效果。 聚合的种类 阅读全文
posted @ 2024-01-14 17:02 阿飞藏泪 阅读(82) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2024-01-14 16:44 阿飞藏泪 阅读(6) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2024-01-14 16:43 阿飞藏泪 阅读(6) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2024-01-14 16:42 阿飞藏泪 阅读(6) 评论(0) 推荐(0)
摘要: 算子是什么: 算子:分布式集合对象上的API称之为算子。 算子分类: RDD的算子分为2类: Transformation:转换算子 Action:动作(行动)算子 阅读全文
posted @ 2024-01-14 15:10 阿飞藏泪 阅读(22) 评论(0) 推荐(0)
摘要: RDD的创建主要有2种方式: • 通过并行化集合创建 ( 本地对象 转 分布式RDD ) • 读取外部数据源 ( 读取文件 ) 阅读全文
posted @ 2024-01-14 15:02 阿飞藏泪 阅读(21) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2024-01-13 10:37 阿飞藏泪 阅读(10) 评论(0) 推荐(0)
摘要: RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可 分区、里面的元素可并行计算的集合。 Dataset:一个数据集合,用于存放数据的。 Distributed:RDD中的数据是分布式存储的,可用于分布式计算。 阅读全文
posted @ 2024-01-13 09:54 阿飞藏泪 阅读(41) 评论(0) 推荐(0)
摘要: SparkContext对象的构建 以及 Spark程序的退出, 由 Driver 负责执行 具体的数据处理步骤, 由Executor在执行. 其实简单来说就是: 非数据处理的部分由Driver工作 数据处理的部分(干活)由Executor工作 要知道: Executor不仅仅是一个, 视集群规模, 阅读全文
posted @ 2024-01-13 09:41 阿飞藏泪 阅读(11) 评论(0) 推荐(0)
摘要: IDEA可以抽取一些通用一样的代码为一个方法函数,快捷键为Ctrl+Alt+m 阅读全文
posted @ 2024-01-12 21:47 阿飞藏泪 阅读(16) 评论(0) 推荐(0)
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 70 下一页
1 2 3
4