摘要:
一.建表和加载数据 1.student表 create table if not exists student(s_id int,s_name string,s_birth string,s_sex string) row format delimited fields terminated by 阅读全文
posted @ 2020-05-07 23:22
大码王
阅读(488)
评论(0)
推荐(0)
摘要:
一、DataSet API之Data Sources(消费者之数据源) 介绍: flink提供了大量的已经实现好的source方法,你也可以自定义source 通过实现sourceFunction接口来自定义无并行度的source, 或者你也可以通过实现ParallelSourceFunction 阅读全文
posted @ 2020-05-07 23:17
大码王
阅读(1127)
评论(0)
推荐(1)
摘要:
一、DataStream API之Data Sources(消费者之数据源) 介绍: source是程序的数据源输入,你可以通过StreamExecutionEnvironment.addSource(sourceFunction)来为你的程序添加一个source。 flink提供了大量的已经实现好 阅读全文
posted @ 2020-05-07 23:16
大码王
阅读(1096)
评论(0)
推荐(0)
摘要:
Flink面试--核心概念和基础考察 1、简单介绍一下 Flink 2、Flink 相比传统的 Spark Streaming 有什么区别? 3、Flink 的组件栈有哪些? 面试知识带你,分为以下几个部分: 第一部分:Flink 中的核心概念和基础篇,包含了 Flink 的整体介绍、核心概念、算子 阅读全文
posted @ 2020-05-07 23:05
大码王
阅读(753)
评论(1)
推荐(0)
摘要:
Flink 面试--进阶篇 1、Flink是如何支持批流一体的? 2、Flink是如何做到高效的数据交换的? 3、Flink是如何做容错的? 4、Flink 分布式快照的原理是什么? 5、Flink 是如何保证Exactly-once语义的? 6、Flink 的 kafka 连接器有什么特别的地方? 阅读全文
posted @ 2020-05-07 23:04
大码王
阅读(1861)
评论(0)
推荐(0)
摘要:
Flink面试--源码篇 1、Flink Job的提交流程? 2、Flink所谓"三层图"结构是哪几个"图"? 3、JobManger在集群中扮演了什么角色? 4、JobManger在集群启动过程中起到什么作用? 5、JobManger在集群启动过程中起到什么作用? 6、JobManger在集群启动 阅读全文
posted @ 2020-05-07 23:03
大码王
阅读(917)
评论(1)
推荐(1)
该文被密码保护。 阅读全文
posted @ 2020-05-07 11:38
大码王
阅读(1)
评论(0)
推荐(0)
摘要:
1、Spark调优背景 目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。 环境:服务器600+,spark 2.0.2,Hadoop 2.6. 阅读全文
posted @ 2020-05-07 11:08
大码王
阅读(393)
评论(0)
推荐(0)
摘要:
1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapRe 阅读全文
posted @ 2020-05-07 11:06
大码王
阅读(706)
评论(0)
推荐(0)
摘要:
一、高性能Flink SQL优化技巧 1、Group Aggregate优化技巧 开启MicroBatch或MiniBatch(提升吞吐) MicroBatch和MiniBatch都是微批处理,只是微批的触发机制略有不同。原理同样是缓存一定的数据后再触发处理,以减少对State的访问,从而提升吞吐并 阅读全文
posted @ 2020-05-07 11:01
大码王
阅读(4507)
评论(0)
推荐(0)
摘要:
1、使用机器学习来解决问题,我们用数学语言来描述它,然后建立一个模型,例如回归模型或者分类模型等来描述这个问题; 2、通过最小化误差、最大似然、最大后验概率等等建立模型的代价函数,转化为最优化问题。找到最优化问题的解,也就是能拟合我们的数据的最好的模型参数; 3、求解这个代价函数,找到最优解。 求最 阅读全文
posted @ 2020-05-07 10:48
大码王
阅读(2772)
评论(0)
推荐(0)
摘要:
Flink学习笔记 一.简介 1.定义: 针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。。 2.应用场景: 流数据:把所有任务当成流来处理,处理观察和分析连续事件产生的数据。 3.重要角色: ①Client :用来提交任务给JobManager。 ②JobMan 阅读全文
posted @ 2020-05-07 10:11
大码王
阅读(770)
评论(0)
推荐(0)


浙公网安备 33010602011771号