会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
首页
联系
Github
博客园
管理
友情链接
暂未分类
我从二院来
苍茫之天涯,乃吾辈之所爱也;浩瀚之程序,亦吾之所爱也,然则何时而爱耶?必曰:先天下之忧而忧,后天下之爱而爱也!
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2022年7月28日
流计算中kafka的OffsetReset策略
摘要: 朋友的公司做的是西南某边境省份网红新能源车的数据处理,由于新能源车的火爆,从年初从现在,数据量已经翻番。但与此同时,服务器却没有多少增加。无奈之下,只能暂时将kafka的数据存储时间由之前的1天改为6小时,5小时。其实有点危险,如果在凌晨发生什么异常生产事故导致实时任务退出,如果运维没有及时通知,导
阅读全文
posted @ 2022-07-28 15:07 是奉壹呀
阅读(2094)
评论(0)
推荐(0)
2022年1月12日
《Flink SQL任务自动生成与提交》后续:修改flink源码实现kafka connector BatchMode
摘要: 因为在一篇博文上看到介绍“汽车之家介绍flink数据平台”中提到“基于 SQL 的开发流程”。基于kafka connector,通过source,sink,transformation三条sql完成数据接入,逻辑转换处理,结果落地三步工作。出于兴趣,自己去简(粗)单(糙)实现了这其中的一个小功能。
阅读全文
posted @ 2022-01-12 16:30 是奉壹呀
阅读(2155)
评论(2)
推荐(2)
2021年12月9日
distribute by在spark中的一些应用
摘要: 一.在二次排序当中的应用 1.1 说到排序当然第一想到的就是sort by和order by这两者的区别,也分情况。 在算子当中,两者没有区别,orderby()调用的也是sort。order by就是sort的别名。 /** * Returns a new Dataset sorted by th
阅读全文
posted @ 2021-12-09 15:06 是奉壹呀
阅读(3235)
评论(0)
推荐(0)
2021年11月19日
分布式条件下Integer大小比值的问题
摘要: ###起因 临下班,偶然看到阿里巴巴《JAVA开发手册》中,关于整型包装类对象之间值的比较的规约,里面提到强制使用equals,而不使用==。原因众所周知,在-128 至 127,Integer 对象是在 IntegerCache.cache 产生。 所以很多人会在代码里使用去进行-128 至 12
阅读全文
posted @ 2021-11-19 17:25 是奉壹呀
阅读(113)
评论(0)
推荐(0)
2021年10月14日
Flink SQL任务自动生成与提交
摘要: ###起因 事情的起因,是看到一篇公众号文章Apache Flink 在汽车之家的应用与实践,里面提到了“基于 SQL 的开发流程”。在平台提供以上功能的基础上,用户可以快速的实现 SQL 作业的开发: 创建一个 SQL 任务; 1.编写 DDL 声明 Source 和 Sink; 2.编写 DML
阅读全文
posted @ 2021-10-14 15:20 是奉壹呀
阅读(4863)
评论(5)
推荐(1)
2021年9月6日
技术选型的一点个人思考
摘要: ###1.前言 这个题目有点大。工作也有些年头,从开始入行的被动接受,什么流行就学什么;到有一些想法,会去思考为什么使用这种技术;再到主动去学习一些前沿框架。从开始的不理解,事不关已高高挂起,不在其位不谋其政;到也成为了团队中的中坚力量,去据理力争应该使用某些技术,把觉得好的技术安利给同事,试图引入
阅读全文
posted @ 2021-09-06 17:22 是奉壹呀
阅读(6299)
评论(21)
推荐(58)
2021年9月2日
流处理的限速/反压机制
摘要: 本文主要是指spark+kafka,不包括flink。 摘要 > 1.spark streaming有限速(max rate),有反压(back pressure)。 2.structured streaming没有反压,只有限速。 ###1.为什么要限速和反压 一个spark集群,资源总是有限。如
阅读全文
posted @ 2021-09-02 16:41 是奉壹呀
阅读(1081)
评论(0)
推荐(1)
2021年9月1日
Structured Streaming 的异常处理 【Concurrent update to the log. Multiple streaming jobs detected】
摘要: 版本号: spark 2.3 structured streaming代码 ###异常信息 KafkaSource[Subscribe[test]] at org.apache.spark.sql.execution.streaming.StreamExecution.org$apache$spar
阅读全文
posted @ 2021-09-01 16:50 是奉壹呀
阅读(911)
评论(0)
推荐(0)
2021年8月31日
idea 查看scala源代码
摘要: 使用idea编写spark程序,想要查看源代码,点进去是compiled code ``` private[sql] def this(sc : org.apache.spark.SparkContext) = { /* compiled code */ } def version : scala.
阅读全文
posted @ 2021-08-31 11:52 是奉壹呀
阅读(1065)
评论(0)
推荐(1)
2021年8月30日
structed streaming 触发器trigger
摘要: structed streaming的执行批次,较spark streaming有所改变。更加灵活。总结下来,可大白话地分为三类: 1尽可能快的执行,不定时间 2按固定间隔时间执行 3仅执行一次 详情如下: Trigger类型 使用 注意 unspecified (default) as soon
阅读全文
posted @ 2021-08-30 15:24 是奉壹呀
阅读(938)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告
好文要赞
关注我
收藏该文
←
→
↓
↑