随笔分类 - 大数据
摘要:kafka官网 kafka知识体系/图谱 kafka未来分析 问题场景 -> kafka是什么 -> kafka的原理 -> 详细体系(不细说,重点讲一讲) -> 案例分享 -> 瓶颈(监控)及优化 -> kafka未来展望(对比其他MQ、kafka stream流处理等) 分布式应用如何保证消息的
阅读全文
摘要:这个方案的核心实现思路就是进行两阶段聚合。 第一次是局部聚合,先给每个key都打上一个随机数,比如10以内的随机数,此时原先一样的key就变成不一样的了,比如(hello, 1) (hello, 1) (hello, 1) (hello, 1),就会变成(1_hello, 1) (1_hello,
阅读全文
摘要:由上图可以看出:KafkaProducer有两个基本线程: 主线程: 负责消息创建,拦截器,序列化器,分区器等操作,并将消息追加到消息收集器 RecoderAccumulator中; 消息收集器RecoderAccumulator为每个分区都维护了一个Deque<ProducerBatch> 类型的
阅读全文
摘要:# Connection to node -1 could not be established. Broker may not be available > server.properties 配置文件中 > listeners=PLAINTEXT://192.168.80.101:9092 #
阅读全文
摘要:整体架构图 多个Producer可同时向同一主题发送消息 多个Producer可同时向同一主题同一分区发送消息 一个分区只会被一个消费组消费一次 精确一次Kafka Exactly Once 语义实现原理:幂等性与事务消息-CSDN博客
阅读全文
摘要:https://blog.csdn.net/qq_28900249/article/details/90346599
阅读全文
摘要:https://www.cnblogs.com/smartloli/p/9501887.html
阅读全文
摘要:# 路径 + 通配符* 只读一层子文件夹 val lines: RDD[String] = sc.textFile("file:///E:/tmp/data/*") # 直接路径 报错, 无法识别子文件夹 val lines: RDD[String] = sc.textFile("file:///E
阅读全文
摘要:# -*- coding=utf-8 -*- from impala.dbapi import connect as impylaConnect master_host='192.168.1.17' master_port=10000 master_authMechanism='PLAIN' mas
阅读全文
摘要:Hive外联表HBase 详细参见官网 https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration # hive内部表 创建hive表映射hbase表, 前提是hbase表不存在 drop ttt则,hbase表也会drop c
阅读全文
摘要:一般我们说微批,是指spark这种 一条stream里,如果有多个stateful之类的操作,需要一个batch一个batch 处理并造成 链越长,积累效果越厉害的 后果(假设平均链里的一个节点处理一个batch需要时间为x,链里有100个节点,那么latency至少是100x;而flink的 设计
阅读全文
摘要:实时数据仓库的发展、架构和趋势 结合数据湖的实时数仓架构演进
阅读全文
摘要:-- UDF注意: hive中的数组类型作为 入参,udf中应写 ArrayList 而不是 String[],否则会报错 -- No matching method for class cn.com.dtmobile.hiveUdf.MyUDF with (array<string>). Poss
阅读全文
摘要:get_json_object get_json_object(json_string, field_path) -- 对json字符串get_json_object(json_string, field_path) 获取lng/lat , 序号 为单独字段 新表生成 with tmp as ( s
阅读全文
摘要:1.前置条件及准备工作 SSH免密登录 JDK1.8 上传tar包(hadoop-3.3.6) 远程调用脚本及远程同步脚本 远程调用脚本 #!/bin/bash p_cnt=$# if (( p_cnt<1 )) ; then echo no args; exit ; fi cuser=`whoam
阅读全文
摘要:## 1.背景 想要对自己的各种数据(非结构化)进行统一管理,突然想到数据湖,看看是否符合我的需求。 ## 2.Hudi简介 #### 2.1 hudi的特性 ``` mutability support for all data lake workoads Quickly update & del
阅读全文
摘要:HiveServer2的架构 Hive 核心服务HiveServer2(HS2)的前世今生,最后提供代码实例
阅读全文
摘要:1 简介 About Seatunnel SeaTunnel is a very easy-to-use ultra-high-performance distributed data integration platform that supports real-time synchronizat
阅读全文

浙公网安备 33010602011771号