随笔分类 -  大数据

摘要:kafka官网 kafka知识体系/图谱 kafka未来分析 问题场景 -> kafka是什么 -> kafka的原理 -> 详细体系(不细说,重点讲一讲) -> 案例分享 -> 瓶颈(监控)及优化 -> kafka未来展望(对比其他MQ、kafka stream流处理等) 分布式应用如何保证消息的 阅读全文
posted @ 2025-03-20 18:42 钱塘江畔 阅读(8) 评论(0) 推荐(0)
摘要:这个方案的核心实现思路就是进行两阶段聚合。 第一次是局部聚合,先给每个key都打上一个随机数,比如10以内的随机数,此时原先一样的key就变成不一样的了,比如(hello, 1) (hello, 1) (hello, 1) (hello, 1),就会变成(1_hello, 1) (1_hello, 阅读全文
posted @ 2025-03-19 22:21 钱塘江畔 阅读(30) 评论(0) 推荐(0)
摘要:由上图可以看出:KafkaProducer有两个基本线程: 主线程: 负责消息创建,拦截器,序列化器,分区器等操作,并将消息追加到消息收集器 RecoderAccumulator中; 消息收集器RecoderAccumulator为每个分区都维护了一个Deque<ProducerBatch> 类型的 阅读全文
posted @ 2025-03-19 22:18 钱塘江畔 阅读(25) 评论(0) 推荐(0)
摘要:# Connection to node -1 could not be established. Broker may not be available > server.properties 配置文件中 > listeners=PLAINTEXT://192.168.80.101:9092 # 阅读全文
posted @ 2025-03-19 22:17 钱塘江畔 阅读(13) 评论(0) 推荐(0)
摘要:整体架构图 多个Producer可同时向同一主题发送消息 多个Producer可同时向同一主题同一分区发送消息 一个分区只会被一个消费组消费一次 精确一次Kafka Exactly Once 语义实现原理:幂等性与事务消息-CSDN博客 阅读全文
posted @ 2025-03-19 22:14 钱塘江畔 阅读(12) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/qq_28900249/article/details/90346599 阅读全文
posted @ 2025-03-19 22:12 钱塘江畔 阅读(11) 评论(0) 推荐(0)
摘要:https://www.cnblogs.com/smartloli/p/9501887.html 阅读全文
posted @ 2025-03-19 22:10 钱塘江畔 阅读(7) 评论(0) 推荐(0)
摘要:# 路径 + 通配符* 只读一层子文件夹 val lines: RDD[String] = sc.textFile("file:///E:/tmp/data/*") # 直接路径 报错, 无法识别子文件夹 val lines: RDD[String] = sc.textFile("file:///E 阅读全文
posted @ 2025-03-19 22:08 钱塘江畔 阅读(18) 评论(0) 推荐(0)
摘要:# -*- coding=utf-8 -*- from impala.dbapi import connect as impylaConnect master_host='192.168.1.17' master_port=10000 master_authMechanism='PLAIN' mas 阅读全文
posted @ 2025-03-19 22:04 钱塘江畔 阅读(8) 评论(0) 推荐(0)
摘要:Hive外联表HBase 详细参见官网 https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration # hive内部表 创建hive表映射hbase表, 前提是hbase表不存在 drop ttt则,hbase表也会drop c 阅读全文
posted @ 2025-03-19 22:02 钱塘江畔 阅读(17) 评论(0) 推荐(0)
摘要:一般我们说微批,是指spark这种 一条stream里,如果有多个stateful之类的操作,需要一个batch一个batch 处理并造成 链越长,积累效果越厉害的 后果(假设平均链里的一个节点处理一个batch需要时间为x,链里有100个节点,那么latency至少是100x;而flink的 设计 阅读全文
posted @ 2025-03-19 21:48 钱塘江畔 阅读(7) 评论(0) 推荐(0)
摘要:实时数据仓库的发展、架构和趋势 结合数据湖的实时数仓架构演进 阅读全文
posted @ 2025-03-19 21:45 钱塘江畔 阅读(20) 评论(0) 推荐(0)
摘要:-- UDF注意: hive中的数组类型作为 入参,udf中应写 ArrayList 而不是 String[],否则会报错 -- No matching method for class cn.com.dtmobile.hiveUdf.MyUDF with (array<string>). Poss 阅读全文
posted @ 2025-03-19 21:40 钱塘江畔 阅读(10) 评论(0) 推荐(0)
摘要:get_json_object get_json_object(json_string, field_path) -- 对json字符串get_json_object(json_string, field_path) 获取lng/lat , 序号 为单独字段 新表生成 with tmp as ( s 阅读全文
posted @ 2025-03-19 21:19 钱塘江畔 阅读(52) 评论(0) 推荐(0)
摘要:1.前置条件及准备工作 SSH免密登录 JDK1.8 上传tar包(hadoop-3.3.6) 远程调用脚本及远程同步脚本 远程调用脚本 #!/bin/bash p_cnt=$# if (( p_cnt<1 )) ; then echo no args; exit ; fi cuser=`whoam 阅读全文
posted @ 2024-12-25 18:14 钱塘江畔 阅读(38) 评论(0) 推荐(0)
摘要:1.执行流程 2.慢的原因 阅读全文
posted @ 2024-05-28 15:58 钱塘江畔 阅读(33) 评论(0) 推荐(0)
摘要:## 1.背景 想要对自己的各种数据(非结构化)进行统一管理,突然想到数据湖,看看是否符合我的需求。 ## 2.Hudi简介 #### 2.1 hudi的特性 ``` mutability support for all data lake workoads Quickly update & del 阅读全文
posted @ 2023-05-23 20:32 钱塘江畔 阅读(49) 评论(0) 推荐(0)
摘要:HiveServer2的架构 Hive 核心服务HiveServer2(HS2)的前世今生,最后提供代码实例 阅读全文
posted @ 2023-05-04 14:51 钱塘江畔 阅读(22) 评论(0) 推荐(0)
摘要:1 简介 About Seatunnel SeaTunnel is a very easy-to-use ultra-high-performance distributed data integration platform that supports real-time synchronizat 阅读全文
posted @ 2023-03-25 17:46 钱塘江畔 阅读(495) 评论(0) 推荐(0)