2024 年 5月文章档案 - low-reed

Kafka搭建文档

摘要：Kafka搭建文档 1、上传解压修改环境变量 # 解压 tar -xvf kafka_2.11-1.0.0.tgz mv kafka_2.11-1.0.0 kafka-1.0.0 # 配置环境变量 vim /etc/profile export KAFKA_HOME=/usr/local/soft/ 阅读全文

posted @ 2024-05-31 19:20 low-reed 阅读(26) 评论(0) 推荐(0)

Flink集群搭建

摘要：Flink集群搭建 1、独立集群 1、上传解压配置环境变量 # 解压 tar -xvf flink-1.15.2-bin-scala_2.12.tgz # 配置环境变量 vim /etc/profile export FLINK_HOME=/usr/local/soft/flink-1.15.2 e 阅读全文

posted @ 2024-05-31 19:20 low-reed 阅读(202) 评论(0) 推荐(0)

spark-sql

摘要：Spark Sql spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行，上线使用 --conf spark.sql.shuffle.partitions=1 -- 设置spark sqlshuffle之后分区数据马，和代码里面设置是一样的，代码中优先级高 spark-s 阅读全文

posted @ 2024-05-27 20:11 low-reed 阅读(25) 评论(0) 推荐(0)

spark数据倾斜

摘要：数据倾斜七种解决方案使用Hive ETL预处理数据过滤少数导致倾斜的key 提高shuffle操作的并行度（分区）双重聚合将reduce join转为map join 采样倾斜key并分拆join操作使用随机前缀和扩容RDD进行join 1、使用Hive ETL预处理数据方案适用场景:如阅读全文

posted @ 2024-05-26 19:47 low-reed 阅读(97) 评论(0) 推荐(0)

EXISTS和IN的介绍

摘要：EXISTS和IN的介绍 1.exists exists返回的是true(空)和flase(非空) 对user表的每行数据逐条取出,每取一行,就判断exists后面的子语句的结果是否为空,是空,这行数据就不要,不是空,这行数据就留下. 如下： select * from A where exists 阅读全文

posted @ 2024-05-20 20:50 low-reed 阅读(28) 评论(0) 推荐(0)

hive sql练习

摘要：蚂蚁森林植物申领统计使用spark sql 完成以下作业背景说明下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。 table_name：user_low_carbon 字段名字段描述 user_id 用户 data_dt 日期 low_carbon 减少碳排放（g）蚂蚁森林植物换购表，阅读全文

posted @ 2024-05-20 20:48 low-reed 阅读(30) 评论(0) 推荐(0)

Spark算子和RDD

摘要：shuffle spark的运行过程中如果出现了相同的键被拉取到对应的分区，这个过程称之为shuffle 注：spark的shuffle和mapreduce的shuffle原理是一样，都是要进行落盘 RDD RDD: 弹性的分布式数据集弹性：RDD将来在计算的时候，其中的数据可以是很大，也可以是很阅读全文

posted @ 2024-05-17 22:03 low-reed 阅读(33) 评论(0) 推荐(0)

spark搭建流程

摘要：1、上传解压，配置环境变量配置bin目录解压 tar -xvf spark-2.4.5-bin-hadoop2.7.tgz 重命名 mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 配置环境变量 vim /etc/profile 2、修改配置文件 conf cp 阅读全文

posted @ 2024-05-17 20:04 low-reed 阅读(29) 评论(0) 推荐(0)

lowreed

05 2024 档案

公告