阿伟宝座

2022年3月23日

摘要： spark 数据倾斜优化倾斜优化数据倾斜产生的原因 1、数据分布不均，有的key很多，有的key很少 2、有shuffle的过程这两个原因也是解决数据倾斜的两个入手的方面数据倾斜七种解决方案其中 3、4、5、6 最重要 3和4 -- 聚合 5和6 -- 关联 1、使用Hive ETL预处理阅读全文

posted @ 2022-03-23 15:26 阿伟宝座阅读(362) 评论(0) 推荐(0)

spark 参数调优

摘要： spark 参数调优参数调优 num-executors 一般为Task数的1/3或1/2左右，这个参数是必须要设置的参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个阅读全文

posted @ 2022-03-23 15:24 阿伟宝座阅读(791) 评论(0) 推荐(0)

spark案例----精准搜索需求

摘要： spark案例精准搜索需求数据： {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","i 阅读全文

posted @ 2022-03-23 15:16 阿伟宝座阅读(76) 评论(0) 推荐(0)

（5）数据案例----数据写入Kafka、flink来消费

摘要：数据案例数据写入Kafka、flink消费 1、创建生产者，将数据写入Kafka package com.shujia.flink.dx import java.util.Properties import org.apache.kafka.clients.producer.{KafkaProdu 阅读全文

posted @ 2022-03-23 15:03 阿伟宝座阅读(627) 评论(0) 推荐(0)

（4）通过 java(Scala) 来读写 Kafka

摘要：通过 java(Scala) 来读写 Kafka 1、导入依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>1.0.0</version> </depend 阅读全文

posted @ 2022-03-23 14:49 阿伟宝座阅读(708) 评论(0) 推荐(0)

（3）Kafka整合Flink使用----使用Flink消费kafka内的数据

摘要： Kafka整合Flink使用使用Flink消费kafka内的数据添加依赖（代码参照kafka官网：https://kafka.apache.org/） <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-conne 阅读全文

posted @ 2022-03-23 10:33 阿伟宝座阅读(1473) 评论(0) 推荐(0)

2022年3月22日

（1）kafka----高吞吐的分布式消息系统

摘要： kafka 高吞吐的分布式消息系统离线与实时： kafka是实时计算的数据源 1、kafka是什么 kafka是高吞吐的分布式消息系统 2、消息队列的应用场景消息就是数据队列就是排队 (1)系统之间解耦合 queue模型 publish-subscribe模型 (2)峰值压力缓冲 (3)异步通阅读全文

posted @ 2022-03-22 20:57 阿伟宝座阅读(211) 评论(0) 推荐(0)

基于 DataStream API 实现欺诈检测

摘要：基于 DataStream API 实现欺诈检测实时场景 Flink的定时器 package com.shujia.flink.core import org.apache.flink.api.common.functions.RuntimeContext import org.apache.fl 阅读全文

posted @ 2022-03-22 15:41 阿伟宝座阅读(193) 评论(0) 推荐(0)

Flink基石----State and Checkpoint

摘要： Flink基石 State and Checkpoint Flink State and Checkpoint Flink 通过 State 和 Checkpoint 来实现容错和数据处理的唯一一次 State 丰富的State API。 ValueState<T>: 保存一个可以更新和检索的值（如阅读全文

posted @ 2022-03-22 15:40 阿伟宝座阅读(261) 评论(0) 推荐(0)

Flink 窗口的底层 API

摘要： Flink 窗口的底层 API 使用窗口的复杂处理 process : flink 底层 API , 可以操作 flink 的时间，事件，状态 W <: Wondow -- Scala泛型通配符，向下限定，W可以是Wondow及其子类 package com.shujia.flink.window 阅读全文

posted @ 2022-03-22 15:34 阿伟宝座阅读(118) 评论(0) 推荐(0)

2022年3月21日

Flink基石----Window

摘要： Flink基石 Window Flink中的Window包含三部分： 1、Time Window 时间窗口 2、Session Window 会话窗口（待没有数据的时候开始计算） 3、Count Window 统计窗口（每n条数据计算一次）一、Time Window 时间窗口时间窗口包含四部分：阅读全文

posted @ 2022-03-21 21:55 阿伟宝座阅读(177) 评论(0) 推荐(0)

spark 调优、spark 代码的优化

摘要： spark 调优、spark 代码的优化目录 spark 调优 spark 代码的优化对多次使用的RDD进行持久化使用高性能的算子使用foreachPartitions替代foreach Action算子重分区使用filter之后进行coalesce操作广播大变量使用Kryo优化序列阅读全文

posted @ 2022-03-21 17:18 阿伟宝座阅读(212) 评论(0) 推荐(0)

2022年3月20日

Flink 基石----Time

摘要： Flink 基石、Flink Time、事件时间、Watermark水位线 Flink 基石 Flink Time 事件时间代码示例 package com.shujia.flink.core import org.apache.flink.streaming.api.TimeCharacteri 阅读全文

posted @ 2022-03-20 21:59 阿伟宝座阅读(87) 评论(0) 推荐(0)

Flink 共享槽位、如何判断Flink需要使用多少资源

摘要： Flink 共享槽位、如何判断Flink需要使用多少资源并行数据流上图中有5个Task，那么这5个task是如何部署的呢？任务槽和资源 Flink 并不是这样部署的共享槽位 Flink并不是将task合并，而是上游的task和下游的task可以共享一个槽位所以Flink需要使用多少资源和t 阅读全文

posted @ 2022-03-20 20:41 阿伟宝座阅读(572) 评论(0) 推荐(0)

Flink的并行度问题

摘要： Flink的并行度问题 package com.shujia.flink.core import org.apache.flink.streaming.api.datastream.DataStreamSink import org.apache.flink.streaming.api.scala. 阅读全文

posted @ 2022-03-20 20:15 阿伟宝座阅读(614) 评论(0) 推荐(0)

公告