2021年6月16日

摘要: 引言 join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操作。 对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(SparkSQL自动 阅读全文
posted @ 2021-06-16 16:32 层林尽染 阅读(576) 评论(0) 推荐(0) 编辑

2020年9月28日

摘要: 修改oozie配置中的 “系统用户”配置,改为可以运行ssh命令的用户 阅读全文
posted @ 2020-09-28 09:34 层林尽染 阅读(252) 评论(0) 推荐(0) 编辑

2020年9月22日

摘要: 1、下载对应版本完整flink版本,打开org.apache.flink.yarn 模块的pom文件,pom文件的parent描述中version版本改为对应版本,如:将1.11-SNAPSHOT 改为1.11.22、修改YarnClusterDescriptor 类的addLibFoldersTo 阅读全文
posted @ 2020-09-22 11:32 层林尽染 阅读(2128) 评论(0) 推荐(0) 编辑

2020年4月17日

摘要: https://flink.apache.org/news/2020/02/07/a-guide-for-unit-testing-in-apache-flink.html 阅读全文
posted @ 2020-04-17 10:37 层林尽染 阅读(692) 评论(0) 推荐(0) 编辑
摘要: https://flink.apache.org/news/2020/01/29/state-unlocked-interacting-with-state-in-apache-flink.html Typically, evolving the schema of an application’s 阅读全文
posted @ 2020-04-17 10:35 层林尽染 阅读(211) 评论(0) 推荐(0) 编辑

2020年2月29日

摘要: 1、找不到scala 类 因为pom利配置的flink核心以来都是provided,所以本地运行时找不到,需要在idea里添加上这些依赖 2、flink参数传递 参数名前使用-- 或者 - 配置文件路径示例 配置文件前加上路径src\main\resources 阅读全文
posted @ 2020-02-29 15:06 层林尽染 阅读(1894) 评论(0) 推荐(0) 编辑

2019年6月14日

摘要: https://www.cnblogs.com/leap/p/9631702.html 阅读全文
posted @ 2019-06-14 15:19 层林尽染 阅读(128) 评论(0) 推荐(0) 编辑

2019年3月28日

摘要: https://www.jianshu.com/p/99d1ef8efebc 阅读全文
posted @ 2019-03-28 11:46 层林尽染 阅读(77) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/daydayup_668819/article/details/70815335 https://www.jianshu.com/p/8a6cc2d72062 阅读全文
posted @ 2019-03-28 11:30 层林尽染 阅读(65) 评论(0) 推荐(0) 编辑

2019年3月14日

摘要: 原文地址:Spark SQL 之 Join 实现 Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行 阅读全文
posted @ 2019-03-14 21:37 层林尽染 阅读(180) 评论(0) 推荐(0) 编辑

导航