上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 39 下一页
摘要: spark-数据倾斜 ==1.解决方案== 1.1使用Hive ETL预处理数据 1.2、过滤少数导致倾斜的key 1.3、提高shuffle操作的并行度 1.4、双重聚合 1.5、将reduce join转为map join 1.6 、采样倾斜key并分拆join操作 1. 7、使用随机前缀和扩容 阅读全文
posted @ 2022-07-21 23:17 a-tao必须奥利给 阅读(51) 评论(0) 推荐(0)
摘要: spark-调优(配置层面) 1.executor的配置(重点) --num-executors executor的数量 --executor-memory 每一个executor的内存 --executor-cores 每一个executor的核心数 --driver-memory Driver的 阅读全文
posted @ 2022-07-21 22:41 a-tao必须奥利给 阅读(705) 评论(0) 推荐(0)
摘要: spark-调优(代码) ==在编写代码时可以进行优化== 避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化 尽量避免使用shuffle类算子 使用map-side预聚合的shuffle操作 使用高性能的算子 广播大变量 使用Kryo优化序列化性能 优化数据结构 使用高性能 阅读全文
posted @ 2022-07-21 21:16 a-tao必须奥利给 阅读(82) 评论(0) 推荐(0)
摘要: spark streaming ==实时计算的案例== 数据 {"car":"皖A9A7N2","city_code":"340500","county_code":"340522","card":117988031603010,"camera_id":"00001","orientation":" 阅读全文
posted @ 2022-07-20 10:18 a-tao必须奥利给 阅读(93) 评论(0) 推荐(0)
摘要: spark streaming DS转成DF写代码 package com.shujia.spark.streaming import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.sp 阅读全文
posted @ 2022-07-20 09:52 a-tao必须奥利给 阅读(293) 评论(0) 推荐(0)
摘要: spark streaming WordCount案例 创建spark Streaming 环境,需要依赖Spark core 环境 创建spark streaming 环境,需要设置执行执行的间隔时间 * 1、读取实时的数据源 * 安装 * yum install nc * 启动socket服务 阅读全文
posted @ 2022-07-20 09:42 a-tao必须奥利给 阅读(202) 评论(0) 推荐(0)
摘要: 蚂蚁森林植物申领统计 使用spark sql DSL完成以下作业 背景说明 下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。 table_name:user_low_carbon | 字段名 | 字段描述 | | | | | user_id | 用户 | | data_dt | 日期 | | l 阅读全文
posted @ 2022-07-17 22:55 a-tao必须奥利给 阅读(159) 评论(0) 推荐(0)
摘要: spark subject subject_1:==lag函数的使用场景(灵活)== 公司代码,年度,1月 12月的收入金额 burk,year,tsl01,tsl02,tsl03,tsl04,tsl05,tsl06,tsl07,tsl08,tsl09,tsl10,tsl11,tsl12 85310 阅读全文
posted @ 2022-07-17 22:44 a-tao必须奥利给 阅读(70) 评论(0) 推荐(0)
摘要: spark 将项目打包到集群中运行 package com.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo9Submit { def main(args: Array[String]): 阅读全文
posted @ 2022-07-17 22:33 a-tao必须奥利给 阅读(58) 评论(0) 推荐(0)
摘要: spark DSL DSL的数据来源 package com.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo4DataSource { def main(args: Array[Strin 阅读全文
posted @ 2022-07-17 22:27 a-tao必须奥利给 阅读(166) 评论(0) 推荐(0)
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 39 下一页