大数据 - 随笔分类(第2页) - 钱塘江畔

202108140116 - kafka分享

摘要：kafka官网 kafka知识体系/图谱 kafka未来分析问题场景 -> kafka是什么 -> kafka的原理 -> 详细体系（不细说，重点讲一讲） -> 案例分享 -> 瓶颈(监控)及优化 -> kafka未来展望(对比其他MQ、kafka stream流处理等) 分布式应用如何保证消息的阅读全文

posted @ 2025-03-20 18:42 钱塘江畔阅读(8) 评论(0) 推荐(0)

202108051212 - spark两阶段聚合

摘要：这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，比如(hello, 1) (hello, 1) (hello, 1) (hello, 1)，就会变成(1_hello, 1) (1_hello, 阅读全文

posted @ 2025-03-19 22:21 钱塘江畔阅读(30) 评论(0) 推荐(0)

202108032324 - kafka的生产流程

摘要：由上图可以看出：KafkaProducer有两个基本线程：主线程：负责消息创建，拦截器，序列化器，分区器等操作，并将消息追加到消息收集器 RecoderAccumulator中；消息收集器RecoderAccumulator为每个分区都维护了一个Deque<ProducerBatch> 类型的阅读全文

posted @ 2025-03-19 22:18 钱塘江畔阅读(25) 评论(0) 推荐(0)

202108030820 - kafka报错

摘要：# Connection to node -1 could not be established. Broker may not be available > server.properties 配置文件中 > listeners=PLAINTEXT://192.168.80.101:9092 # 阅读全文

posted @ 2025-03-19 22:17 钱塘江畔阅读(13) 评论(0) 推荐(0)

202108021255 - kafka架构图

摘要：整体架构图多个Producer可同时向同一主题发送消息多个Producer可同时向同一主题同一分区发送消息一个分区只会被一个消费组消费一次精确一次Kafka Exactly Once 语义实现原理：幂等性与事务消息-CSDN博客阅读全文

posted @ 2025-03-19 22:14 钱塘江畔阅读(12) 评论(0) 推荐(0)

202108012009 - kafka常见面试题

摘要：https://blog.csdn.net/qq_28900249/article/details/90346599 阅读全文

posted @ 2025-03-19 22:12 钱塘江畔阅读(11) 评论(0) 推荐(0)

202108011923 - HBase使用BulkLoad批量写入数据

摘要：https://www.cnblogs.com/smartloli/p/9501887.html 阅读全文

posted @ 2025-03-19 22:10 钱塘江畔阅读(7) 评论(0) 推荐(0)

202107302320 - spark将文件夹下所有文件读取到一个RDD

摘要：# 路径 + 通配符* 只读一层子文件夹 val lines: RDD[String] = sc.textFile("file:///E:/tmp/data/*") # 直接路径报错, 无法识别子文件夹 val lines: RDD[String] = sc.textFile("file:///E 阅读全文

posted @ 2025-03-19 22:08 钱塘江畔阅读(18) 评论(0) 推荐(0)

202107291809 - 连接hive使用python

摘要：# -*- coding=utf-8 -*- from impala.dbapi import connect as impylaConnect master_host='192.168.1.17' master_port=10000 master_authMechanism='PLAIN' mas 阅读全文

posted @ 2025-03-19 22:04 钱塘江畔阅读(8) 评论(0) 推荐(0)

202107282053 外联表--hive集成hbase

摘要：Hive外联表HBase 详细参见官网 https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration # hive内部表创建hive表映射hbase表, 前提是hbase表不存在 drop ttt则，hbase表也会drop c 阅读全文

posted @ 2025-03-19 22:02 钱塘江畔阅读(17) 评论(0) 推荐(0)

202107262229 - 微批

摘要：一般我们说微批，是指spark这种一条stream里，如果有多个stateful之类的操作，需要一个batch一个batch 处理并造成链越长，积累效果越厉害的后果(假设平均链里的一个节点处理一个batch需要时间为x，链里有100个节点，那么latency至少是100x；而flink的设计阅读全文

posted @ 2025-03-19 21:48 钱塘江畔阅读(7) 评论(0) 推荐(0)

实时数据仓库的发展、架构和趋势

摘要：实时数据仓库的发展、架构和趋势结合数据湖的实时数仓架构演进阅读全文

posted @ 2025-03-19 21:45 钱塘江畔阅读(20) 评论(0) 推荐(0)

202107261248 - hive注意事项

摘要：-- UDF注意: hive中的数组类型作为入参，udf中应写 ArrayList 而不是 String[]，否则会报错 -- No matching method for class cn.com.dtmobile.hiveUdf.MyUDF with (array<string>). Poss 阅读全文

posted @ 2025-03-19 21:40 钱塘江畔阅读(10) 评论(0) 推荐(0)

202107191056 - hive中的json处理函数

摘要：get_json_object get_json_object(json_string, field_path) -- 对json字符串get_json_object(json_string, field_path) 获取lng/lat ，序号为单独字段新表生成 with tmp as ( s 阅读全文

posted @ 2025-03-19 21:19 钱塘江畔阅读(52) 评论(0) 推荐(0)

hadoop集群部署

摘要：1.前置条件及准备工作 SSH免密登录 JDK1.8 上传tar包（hadoop-3.3.6）远程调用脚本及远程同步脚本远程调用脚本 #!/bin/bash p_cnt=$# if (( p_cnt<1 )) ; then echo no args; exit ; fi cuser=`whoam 阅读全文

posted @ 2024-12-25 18:14 钱塘江畔阅读(38) 评论(0) 推荐(0)

为什么hive的select count(*)很慢？

摘要：1.执行流程 2.慢的原因阅读全文

posted @ 2024-05-28 15:58 钱塘江畔阅读(33) 评论(0) 推荐(0)

hudi学习

摘要：## 1.背景想要对自己的各种数据（非结构化）进行统一管理，突然想到数据湖，看看是否符合我的需求。 ## 2.Hudi简介 #### 2.1 hudi的特性 ``` mutability support for all data lake workoads Quickly update & del 阅读全文

posted @ 2023-05-23 20:32 钱塘江畔阅读(49) 评论(0) 推荐(0)

HiveServer2的架构

摘要：HiveServer2的架构 Hive 核心服务HiveServer2(HS2)的前世今生，最后提供代码实例阅读全文

posted @ 2023-05-04 14:51 钱塘江畔阅读(22) 评论(0) 推荐(0)

Seatunnel学习记录1

摘要：1 简介 About Seatunnel SeaTunnel is a very easy-to-use ultra-high-performance distributed data integration platform that supports real-time synchronizat 阅读全文

posted @ 2023-03-25 17:46 钱塘江畔阅读(495) 评论(0) 推荐(0)

钱塘江畔

小树不修不直溜

随笔分类 - 大数据

公告