会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
lhk20213937
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
···
16
下一页
2024年6月28日
2024春季学期软件工程加分项目
摘要: Hive的源码Debug及Spark的内存模型 博客链接:https://www.cnblogs.com/lhk20213937/p/18136064 蓝桥杯国赛二等奖 天梯赛国赛三等奖
阅读全文
posted @ 2024-06-28 16:11 啦啦啦one
阅读(40)
评论(0)
推荐(0)
2024年5月6日
Kafka性能测试
摘要: Kafka性能测试 单节点、百兆网卡 生产者 消费者 start.time end.time data.consumed.in.MB MB.sec data.consumed.in.nMsg nMsg.sec rebalance.time.ms fetch.time.ms fetch.MB.sec
阅读全文
posted @ 2024-05-06 12:18 啦啦啦one
阅读(16)
评论(0)
推荐(0)
2024年5月5日
Flume和kafka produce相关配置
摘要: Flume和Kafka Produce的配置 我们一般都会知道Flume有三个组件:source、channel、sink 我们这篇文章主要是讲解一下\(\color{ForestGreen}{Flume}\)、\(\color{ForestGreen}{Kafka Producer(Kafka生产
阅读全文
posted @ 2024-05-05 22:03 啦啦啦one
阅读(28)
评论(0)
推荐(0)
2024年5月4日
hive on spark 优化-SQL层面
摘要: Hive On Spark 调优 本篇博客将从hive on spark的SQL层面,来对任务做一些优化。下面的优化,从这几个方面来讲:Group、Join、并行度、小文件。 Group、Join $\color{ForestGreen}{小提示:}$ Group和Join的不同之处在于: Grou
阅读全文
posted @ 2024-05-04 16:47 啦啦啦one
阅读(161)
评论(0)
推荐(0)
Flink调优初次笔记
摘要: 资源配置优化 从1.11开始,增加了一个通用客户端模式,(-t yarn-job) TaskManager内存模型 Flink既使用堆内存,又使用堆外内存。 指定进程内存 JVM metaspace:JVM元空间,默认256M JVM 执行内存:执行开销。有最小值和最大值。计算公式为:进程内存*0.
阅读全文
posted @ 2024-05-04 15:37 啦啦啦one
阅读(56)
评论(0)
推荐(0)
2024年4月16日
hive on spark内存模型
摘要: 内容介绍 hive on spark的调优,那必然涉及到这一系列框架的内存模型。本章就是来讲一下这些框架的内存模型。 hive on spark的任务,从开始到结束。总共涉及了3个框架。分别是:yarn、hive、spark 其中,hive只是一个客户端的角色。就不涉及任务运行时的内存。所以这里主要
阅读全文
posted @ 2024-04-16 09:01 啦啦啦one
阅读(146)
评论(0)
推荐(0)
2024年4月1日
Hive的row_number和regexp_extract结合带来的乱码问题
摘要: select userid, from_unixtime(createtime,'yyyy-MM-dd') as dateid, regexp_extract(browser,'^([^\\(]*).*$',1) as browser, operationsystem, device, row_nu
阅读全文
posted @ 2024-04-01 12:14 啦啦啦one
阅读(38)
评论(0)
推荐(0)
hive Sql的动态分区问题
摘要: 在通过Hive SQL向Parquet或者ORC格式的表插入数据时,如果开启的分区数量太多。很容易导致OOM。即便数据只有小小的几M。 主要原因是在写入这些文件之前,需要将这些批次的行缓存到内存中。 每一个动态分区目录都会有一个文件写入器。因为这些缓冲区都是按照分区维护的。所以所需内存随着分区数量的
阅读全文
posted @ 2024-04-01 12:07 啦啦啦one
阅读(69)
评论(0)
推荐(0)
2024年3月23日
模板文件
摘要: #!/usr/bin/python3 # coding=utf-8 import datetime import subprocess def get_yesterday(): date = datetime.date.today() return date - datetime.timedelta
阅读全文
posted @ 2024-03-23 19:03 啦啦啦one
阅读(22)
评论(0)
推荐(0)
2024年3月6日
关于debezium。kafka和sqlserver的数据同步
摘要: 直接在官网下载sql server的插件。 Debezium Release Series 2.5 下载完后将这个插件解压到linux里面。 路径其实是无所谓的,我在kafka目录下,创建了一个connect目录,专门放置这些插件 然后去kafka的config目录下,修改connect-distr
阅读全文
posted @ 2024-03-06 20:09 啦啦啦one
阅读(490)
评论(0)
推荐(0)
1
2
3
4
5
···
16
下一页
公告