摘要: spark 数据倾斜优化 倾斜优化 数据倾斜产生的原因 1、数据分布不均,有的key很多,有的key很少 2、有shuffle的过程 这两个原因也是解决数据倾斜的两个入手的方面 数据倾斜七种解决方案 其中 3、4、5、6 最重要 3和4 -- 聚合 5和6 -- 关联 1、使用Hive ETL预处理 阅读全文
posted @ 2022-03-23 15:26 阿伟宝座 阅读(313) 评论(0) 推荐(0)
摘要: spark 参数调优 参数调优 num-executors 一般为Task数的1/3或1/2左右,这个参数是必须要设置的 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个 阅读全文
posted @ 2022-03-23 15:24 阿伟宝座 阅读(711) 评论(0) 推荐(0)
摘要: spark案例 精准搜索需求 数据: {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","i 阅读全文
posted @ 2022-03-23 15:16 阿伟宝座 阅读(53) 评论(0) 推荐(0)
摘要: 数据案例 数据写入Kafka、flink消费 1、创建生产者,将数据写入Kafka package com.shujia.flink.dx import java.util.Properties import org.apache.kafka.clients.producer.{KafkaProdu 阅读全文
posted @ 2022-03-23 15:03 阿伟宝座 阅读(602) 评论(0) 推荐(0)
摘要: 通过 java(Scala) 来读写 Kafka 1、导入依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>1.0.0</version> </depend 阅读全文
posted @ 2022-03-23 14:49 阿伟宝座 阅读(683) 评论(0) 推荐(0)
摘要: Kafka整合Flink使用 使用Flink消费kafka内的数据 添加依赖(代码参照kafka官网:https://kafka.apache.org/) <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-conne 阅读全文
posted @ 2022-03-23 10:33 阿伟宝座 阅读(1445) 评论(0) 推荐(0)