啦啦啦one - 博客园

2024年6月28日

2024春季学期软件工程加分项目

摘要： Hive的源码Debug及Spark的内存模型博客链接：https://www.cnblogs.com/lhk20213937/p/18136064 蓝桥杯国赛二等奖天梯赛国赛三等奖阅读全文

posted @ 2024-06-28 16:11 啦啦啦one 阅读(44) 评论(0) 推荐(0)

2024年5月6日

摘要： Kafka性能测试单节点、百兆网卡生产者消费者 start.time end.time data.consumed.in.MB MB.sec data.consumed.in.nMsg nMsg.sec rebalance.time.ms fetch.time.ms fetch.MB.sec 阅读全文

posted @ 2024-05-06 12:18 啦啦啦one 阅读(21) 评论(0) 推荐(0)

2024年5月5日

Flume和kafka produce相关配置

摘要： Flume和Kafka Produce的配置我们一般都会知道Flume有三个组件：source、channel、sink 我们这篇文章主要是讲解一下$\color{ForestGreen}{Flume}$、\(\color{ForestGreen}{Kafka Producer(Kafka生产阅读全文

posted @ 2024-05-05 22:03 啦啦啦one 阅读(32) 评论(0) 推荐(0)

2024年5月4日

hive on spark 优化-SQL层面

摘要： Hive On Spark 调优本篇博客将从hive on spark的SQL层面，来对任务做一些优化。下面的优化，从这几个方面来讲：Group、Join、并行度、小文件。 Group、Join $\color{ForestGreen}{小提示：}$ Group和Join的不同之处在于： Grou 阅读全文

posted @ 2024-05-04 16:47 啦啦啦one 阅读(173) 评论(0) 推荐(0)

Flink调优初次笔记

摘要：资源配置优化从1.11开始，增加了一个通用客户端模式，(-t yarn-job) TaskManager内存模型 Flink既使用堆内存，又使用堆外内存。指定进程内存 JVM metaspace:JVM元空间，默认256M JVM 执行内存：执行开销。有最小值和最大值。计算公式为：进程内存*0. 阅读全文

posted @ 2024-05-04 15:37 啦啦啦one 阅读(60) 评论(0) 推荐(0)

2024年4月16日

hive on spark内存模型

摘要：内容介绍 hive on spark的调优,那必然涉及到这一系列框架的内存模型。本章就是来讲一下这些框架的内存模型。 hive on spark的任务，从开始到结束。总共涉及了3个框架。分别是：yarn、hive、spark 其中，hive只是一个客户端的角色。就不涉及任务运行时的内存。所以这里主要阅读全文

posted @ 2024-04-16 09:01 啦啦啦one 阅读(162) 评论(0) 推荐(0)

2024年4月1日

Hive的row_number和regexp_extract结合带来的乱码问题

摘要： select userid, from_unixtime(createtime,'yyyy-MM-dd') as dateid, regexp_extract(browser,'^([^\\(]*).*$',1) as browser, operationsystem, device, row_nu 阅读全文

posted @ 2024-04-01 12:14 啦啦啦one 阅读(47) 评论(0) 推荐(0)

hive Sql的动态分区问题

摘要：在通过Hive SQL向Parquet或者ORC格式的表插入数据时，如果开启的分区数量太多。很容易导致OOM。即便数据只有小小的几M。主要原因是在写入这些文件之前，需要将这些批次的行缓存到内存中。每一个动态分区目录都会有一个文件写入器。因为这些缓冲区都是按照分区维护的。所以所需内存随着分区数量的阅读全文

posted @ 2024-04-01 12:07 啦啦啦one 阅读(79) 评论(0) 推荐(0)

2024年3月23日

模板文件

摘要： #!/usr/bin/python3 # coding=utf-8 import datetime import subprocess def get_yesterday(): date = datetime.date.today() return date - datetime.timedelta 阅读全文

posted @ 2024-03-23 19:03 啦啦啦one 阅读(26) 评论(0) 推荐(0)

2024年3月6日

关于debezium。kafka和sqlserver的数据同步

摘要：直接在官网下载sql server的插件。 Debezium Release Series 2.5 下载完后将这个插件解压到linux里面。路径其实是无所谓的，我在kafka目录下，创建了一个connect目录，专门放置这些插件然后去kafka的config目录下，修改connect-distr 阅读全文

posted @ 2024-03-06 20:09 啦啦啦one 阅读(498) 评论(0) 推荐(0)

公告