05 2024 档案
摘要:Kafka搭建文档 1、上传解压修改环境变量 # 解压 tar -xvf kafka_2.11-1.0.0.tgz mv kafka_2.11-1.0.0 kafka-1.0.0 # 配置环境变量 vim /etc/profile export KAFKA_HOME=/usr/local/soft/
阅读全文
摘要:Flink集群搭建 1、独立集群 1、上传解压配置环境变量 # 解压 tar -xvf flink-1.15.2-bin-scala_2.12.tgz # 配置环境变量 vim /etc/profile export FLINK_HOME=/usr/local/soft/flink-1.15.2 e
阅读全文
摘要:Spark Sql spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行,上线使用 --conf spark.sql.shuffle.partitions=1 -- 设置spark sqlshuffle之后分区数据马,和代码里面设置是一样的,代码中优先级高 spark-s
阅读全文
摘要:数据倾斜七种解决方案 使用Hive ETL预处理数据 过滤少数导致倾斜的key 提高shuffle操作的并行度(分区) 双重聚合 将reduce join转为map join 采样倾斜key并分拆join操作 使用随机前缀和扩容RDD进行join 1、使用Hive ETL预处理数据 方案适用场景:如
阅读全文
摘要:EXISTS和IN的介绍 1.exists exists返回的是true(空)和flase(非空) 对user表的每行数据逐条取出,每取一行,就判断exists后面的子语句的结果是否为空,是空,这行数据就不要,不是空,这行数据就留下. 如下: select * from A where exists
阅读全文
摘要:蚂蚁森林植物申领统计 使用spark sql 完成以下作业 背景说明 下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。 table_name:user_low_carbon 字段名 字段描述 user_id 用户 data_dt 日期 low_carbon 减少碳排放(g) 蚂蚁森林植物换购表,
阅读全文
摘要:shuffle spark的运行过程中如果出现了相同的键被拉取到对应的分区,这个过程称之为shuffle 注:spark的shuffle和mapreduce的shuffle原理是一样,都是要进行落盘 RDD RDD: 弹性的分布式数据集 弹性:RDD将来在计算的时候,其中的数据可以是很大,也可以是很
阅读全文
摘要:1、上传解压,配置环境变量 配置bin目录 解压 tar -xvf spark-2.4.5-bin-hadoop2.7.tgz 重命名 mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 配置环境变量 vim /etc/profile 2、修改配置文件 conf cp
阅读全文

浙公网安备 33010602011771号