上一页 1 2 3 4 5 6 ··· 16 下一页
摘要: spark 数据倾斜优化 倾斜优化 数据倾斜产生的原因 1、数据分布不均,有的key很多,有的key很少 2、有shuffle的过程 这两个原因也是解决数据倾斜的两个入手的方面 数据倾斜七种解决方案 其中 3、4、5、6 最重要 3和4 -- 聚合 5和6 -- 关联 1、使用Hive ETL预处理 阅读全文
posted @ 2022-03-23 15:26 阿伟宝座 阅读(325) 评论(0) 推荐(0)
摘要: spark 参数调优 参数调优 num-executors 一般为Task数的1/3或1/2左右,这个参数是必须要设置的 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个 阅读全文
posted @ 2022-03-23 15:24 阿伟宝座 阅读(727) 评论(0) 推荐(0)
摘要: spark案例 精准搜索需求 数据: {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","i 阅读全文
posted @ 2022-03-23 15:16 阿伟宝座 阅读(59) 评论(0) 推荐(0)
摘要: 数据案例 数据写入Kafka、flink消费 1、创建生产者,将数据写入Kafka package com.shujia.flink.dx import java.util.Properties import org.apache.kafka.clients.producer.{KafkaProdu 阅读全文
posted @ 2022-03-23 15:03 阿伟宝座 阅读(609) 评论(0) 推荐(0)
摘要: 通过 java(Scala) 来读写 Kafka 1、导入依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>1.0.0</version> </depend 阅读全文
posted @ 2022-03-23 14:49 阿伟宝座 阅读(697) 评论(0) 推荐(0)
摘要: Kafka整合Flink使用 使用Flink消费kafka内的数据 添加依赖(代码参照kafka官网:https://kafka.apache.org/) <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-conne 阅读全文
posted @ 2022-03-23 10:33 阿伟宝座 阅读(1452) 评论(0) 推荐(0)
摘要: kafka 高吞吐的分布式消息系统 离线与实时: kafka是实时计算的数据源 1、kafka是什么 kafka是高吞吐的分布式消息系统 2、消息队列的应用场景 消息就是数据 队列就是排队 (1)系统之间解耦合 queue模型 publish-subscribe模型 (2)峰值压力缓冲 (3)异步通 阅读全文
posted @ 2022-03-22 20:57 阿伟宝座 阅读(198) 评论(0) 推荐(0)
摘要: 基于 DataStream API 实现欺诈检测 实时场景 Flink的定时器 package com.shujia.flink.core import org.apache.flink.api.common.functions.RuntimeContext import org.apache.fl 阅读全文
posted @ 2022-03-22 15:41 阿伟宝座 阅读(183) 评论(0) 推荐(0)
摘要: Flink基石 State and Checkpoint Flink State and Checkpoint Flink 通过 State 和 Checkpoint 来实现容错和数据处理的唯一一次 State 丰富的State API。 ValueState<T>: 保存一个可以更新和检索的值(如 阅读全文
posted @ 2022-03-22 15:40 阿伟宝座 阅读(247) 评论(0) 推荐(0)
摘要: Flink 窗口的底层 API 使用窗口的复杂处理 process : flink 底层 API , 可以操作 flink 的时间,事件,状态 W <: Wondow -- Scala泛型通配符,向下限定,W可以是Wondow及其子类 package com.shujia.flink.window 阅读全文
posted @ 2022-03-22 15:34 阿伟宝座 阅读(100) 评论(0) 推荐(0)
摘要: Flink基石 Window Flink中的Window包含三部分: 1、Time Window 时间窗口 2、Session Window 会话窗口(待没有数据的时候开始计算) 3、Count Window 统计窗口(每n条数据计算一次) 一、Time Window 时间窗口 时间窗口包含四部分: 阅读全文
posted @ 2022-03-21 21:55 阿伟宝座 阅读(160) 评论(0) 推荐(0)
摘要: spark 调优、spark 代码的优化 目录 spark 调优 spark 代码的优化 对多次使用的RDD进行持久化 使用高性能的算子 使用foreachPartitions替代foreach Action算子 重分区 使用filter之后进行coalesce操作 广播大变量 使用Kryo优化序列 阅读全文
posted @ 2022-03-21 17:18 阿伟宝座 阅读(191) 评论(0) 推荐(0)
摘要: Flink 基石、Flink Time、事件时间、Watermark水位线 Flink 基石 Flink Time 事件时间 代码示例 package com.shujia.flink.core import org.apache.flink.streaming.api.TimeCharacteri 阅读全文
posted @ 2022-03-20 21:59 阿伟宝座 阅读(80) 评论(0) 推荐(0)
摘要: Flink 共享槽位、如何判断Flink需要使用多少资源 并行数据流 上图中有5个Task,那么这5个task是如何部署的呢? 任务槽和资源 Flink 并不是这样部署的 共享槽位 Flink并不是将task合并,而是上游的task和下游的task可以共享一个槽位 所以Flink需要使用多少资源和t 阅读全文
posted @ 2022-03-20 20:41 阿伟宝座 阅读(550) 评论(0) 推荐(0)
摘要: Flink的并行度问题 package com.shujia.flink.core import org.apache.flink.streaming.api.datastream.DataStreamSink import org.apache.flink.streaming.api.scala. 阅读全文
posted @ 2022-03-20 20:15 阿伟宝座 阅读(597) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 16 下一页