会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
习惯了蓝
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
8
下一页
2022年5月21日
hdfs架构整理
摘要: hdfs组成架构有四个组件,分别是namenode,datanode,secondary namenode。 NameNode(nn):就是Master,它 是一个主管、管理者。 (1)管理HDFS的名称空间; (2)配置副本策略; (3)管理数据块(Block)映射信息; (4)处理客户端读写请求
阅读全文
posted @ 2022-05-21 19:41 习惯了蓝
阅读(237)
评论(0)
推荐(0)
2022年4月12日
DDL中的建表语句通用语法整理
摘要: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name
阅读全文
posted @ 2022-04-12 15:57 习惯了蓝
阅读(155)
评论(0)
推荐(0)
2022年4月7日
spark-streaming-kafka-0-10源码分析和spark闭包的链接整理
摘要: spark-streaming-kafka-0-10源码分析 https://cloud.tencent.com/developer/article/1594316 spark闭包 https://mp.weixin.qq.com/s/l_tfjPMEBjx-63aYyez5Qg
阅读全文
posted @ 2022-04-07 12:45 习惯了蓝
阅读(36)
评论(0)
推荐(0)
spark streaming整合kafka中非聚合类运算如何和kafka保持exactly once一致性语义(幂等性方式)
摘要: object KafkaToHbase { def main(args: Array[String]): Unit = { //true a1 g1 ta,tb val Array(isLocal, appName, groupId, allTopics) = args val conf = new
阅读全文
posted @ 2022-04-07 12:23 习惯了蓝
阅读(48)
评论(0)
推荐(0)
2022年4月5日
spark streaming整合kafka中聚合类运算如何和kafka保持exactly once一致性语义(redis方式,利用pipeline)
摘要: /** * 从Kafka读取数据,实现ExactlyOnce,偏移量保存到Redis中 * 1.将聚合好的数据,收集到Driver端, * 2.然后将计算好的数据和偏移量在一个pipeline中同时保存到Redis中 * 3.成功了提交事物 * 4.失败了废弃原来的数据并让这个任务重启 */ obj
阅读全文
posted @ 2022-04-05 21:20 习惯了蓝
阅读(117)
评论(0)
推荐(0)
spark streaming整合kafka中聚合类运算如何和kafka保持exactly once一致性语义(mysql方式,利用事务)
摘要: /** * 从Kafka读取数据,实现ExactlyOnce,偏移量保存到MySQL中 * 1.将聚合好的数据,收集到Driver端, * 2.然后建计算好的数据和偏移量在一个事物中同时保存到MySQL中 * 3.成功了提交事物 * 4.失败了让这个任务重启 * * MySQL数据库中有两张表:保存
阅读全文
posted @ 2022-04-05 21:19 习惯了蓝
阅读(75)
评论(0)
推荐(0)
SparkStream整合Kafka直连方式的自动提交和手动提交偏移量
摘要: SparkStream新版本中支持与Kafka直连的方式。下图是默认自动提交偏移量的情况。executor中的task会直连kafka对应的分区,消费完数据会把偏移量写回到kafka中特殊的__consumer_offset中 这种方式控制偏移量不够精准,无法保证数据的一致性,也就是exactly
阅读全文
posted @ 2022-04-05 21:15 习惯了蓝
阅读(457)
评论(0)
推荐(0)
2022年3月30日
shuffle
摘要: shuffle是spark中一个很重要的概念,它表示的是上游分区的数据打散到下游分区中。一般来说,shuffle类的算子比如reducebykey会发生shuffle,但是并不是一定会产生。 比如,前面已经经过groupbykey进行分组了,现在再次调用shuffle类算子比如groupbykey,
阅读全文
posted @ 2022-03-30 23:00 习惯了蓝
阅读(839)
评论(0)
推荐(0)
task的序列化问题和线程安全问题
摘要: 在spark中,使用类实例,一般分为四种情况 Driver初始化一个object,这个单例对象要伴随着Task发送到Executor,但是一个Executor中只有一份,必须实现序列化接口, 使用共享成员变量有可能会出现线程安全问题 Driver实例化一个类的实例(new一个实例),在函数内容引用了
阅读全文
posted @ 2022-03-30 16:57 习惯了蓝
阅读(87)
评论(0)
推荐(0)
2022年3月29日
RangePartitioner,sortby,sortbykey
摘要: sample采样算子 https://www.cnblogs.com/students/p/13432692.html sortby算子为什么会触发action操作。 https://waltyou.github.io/Special-SortBy-In-RDD/
阅读全文
posted @ 2022-03-29 23:51 习惯了蓝
阅读(20)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
8
下一页
公告
点击右上角即可分享