2020年5月7日

摘要：一.建表和加载数据 1.student表 create table if not exists student(s_id int,s_name string,s_birth string,s_sex string) row format delimited fields terminated by 阅读全文

posted @ 2020-05-07 23:22 大码王阅读(488) 评论(0) 推荐(0)

flink入门到实战（6）flink批处理从0到1

摘要：一、DataSet API之Data Sources（消费者之数据源）介绍： flink提供了大量的已经实现好的source方法，你也可以自定义source 通过实现sourceFunction接口来自定义无并行度的source，或者你也可以通过实现ParallelSourceFunction 阅读全文

posted @ 2020-05-07 23:17 大码王阅读(1127) 评论(0) 推荐(1)

flink入门到实战（5）flink流处理从0到1

摘要：一、DataStream API之Data Sources（消费者之数据源）介绍： source是程序的数据源输入，你可以通过StreamExecutionEnvironment.addSource(sourceFunction)来为你的程序添加一个source。 flink提供了大量的已经实现好阅读全文

posted @ 2020-05-07 23:16 大码王阅读(1096) 评论(0) 推荐(0)

flink入门到实战（4）flink基础篇

摘要： Flink面试--核心概念和基础考察 1、简单介绍一下 Flink 2、Flink 相比传统的 Spark Streaming 有什么区别? 3、Flink 的组件栈有哪些？面试知识带你，分为以下几个部分：第一部分：Flink 中的核心概念和基础篇，包含了 Flink 的整体介绍、核心概念、算子阅读全文

posted @ 2020-05-07 23:05 大码王阅读(753) 评论(1) 推荐(0)

flink入门到实战（3）flink进阶篇

摘要： Flink 面试--进阶篇 1、Flink是如何支持批流一体的？ 2、Flink是如何做到高效的数据交换的？ 3、Flink是如何做容错的？ 4、Flink 分布式快照的原理是什么？ 5、Flink 是如何保证Exactly-once语义的？ 6、Flink 的 kafka 连接器有什么特别的地方？阅读全文

posted @ 2020-05-07 23:04 大码王阅读(1861) 评论(0) 推荐(0)

flink源码阅读（2）

摘要： Flink面试--源码篇 1、Flink Job的提交流程？ 2、Flink所谓"三层图"结构是哪几个"图"？ 3、JobManger在集群中扮演了什么角色？ 4、JobManger在集群启动过程中起到什么作用？ 5、JobManger在集群启动过程中起到什么作用？ 6、JobManger在集群启动阅读全文

posted @ 2020-05-07 23:03 大码王阅读(917) 评论(1) 推荐(1)

博客园美化大全

该文被密码保护。阅读全文

posted @ 2020-05-07 11:38 大码王阅读(1) 评论(0) 推荐(0)

SparkStreaming入门到实战之(1)--spark优化总结

摘要： 1、Spark调优背景目前Zeppelin已经上线一段时间，Spark作为底层SQL执行引擎，需要进行整体性能调优，来提高SQL查询效率。本文主要给出调优的结论，因为涉及参数很多，故没有很细粒度调优，但整体调优方向是可以得出的。环境：服务器600+，spark 2.0.2，Hadoop 2.6. 阅读全文

posted @ 2020-05-07 11:08 大码王阅读(393) 评论(0) 推荐(0)

hadoop入门到实战（1）hive优化总结

摘要： 1. 概述 1.1 hive的特征：可以通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析；它可以使已经存储的数据结构化；可以直接访问存储在Apache HDFS或其他数据存储系统（如Apache HBase）中的文件； Hive除了支持MapRe 阅读全文

posted @ 2020-05-07 11:06 大码王阅读(706) 评论(0) 推荐(0)

flink入门到实战（2）flink优化总结

摘要：一、高性能Flink SQL优化技巧 1、Group Aggregate优化技巧开启MicroBatch或MiniBatch（提升吞吐） MicroBatch和MiniBatch都是微批处理，只是微批的触发机制略有不同。原理同样是缓存一定的数据后再触发处理，以减少对State的访问，从而提升吞吐并阅读全文

posted @ 2020-05-07 11:01 大码王阅读(4507) 评论(0) 推荐(0)

机器学习算法一般步骤

摘要： 1、使用机器学习来解决问题，我们用数学语言来描述它，然后建立一个模型，例如回归模型或者分类模型等来描述这个问题； 2、通过最小化误差、最大似然、最大后验概率等等建立模型的代价函数，转化为最优化问题。找到最优化问题的解，也就是能拟合我们的数据的最好的模型参数； 3、求解这个代价函数，找到最优解。求最阅读全文

posted @ 2020-05-07 10:48 大码王阅读(2772) 评论(0) 推荐(0)

flink入门到实战（1）入门学习

摘要： Flink学习笔记一.简介 1.定义：针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。。 2.应用场景：流数据：把所有任务当成流来处理，处理观察和分析连续事件产生的数据。 3.重要角色： ①Client ：用来提交任务给JobManager。 ②JobMan 阅读全文

posted @ 2020-05-07 10:11 大码王阅读(770) 评论(0) 推荐(0)

公告