大数据 - 随笔分类 - hnrainll

理解Flink之一编译Flink-1.11.1

摘要：下载源码 git clone -b release-1.11.1 https://github.com/apache/flink.git --depth=1 flink-1.11.1 编译 mvn clean install -DskipTests -Dhadoop.version=2.6.0-cd 阅读全文

posted @ 2020-11-25 15:54 hnrainll 阅读(806) 评论(0) 推荐(0)

理解Hive 不同组件的功能

摘要：Hive功能通过将SQL转换成MR、Spark等任务，来计算HDFS中数据的工具。 Hive是基于Hadoop之上的数仓工具。通过HDFS存储真实的数据，通过YARN运行计算任务（MR、Spark等可以依赖YARN）。那么我们简单分析Hive需要具备的能力：对SQL编译、抽象将SQL转换成计阅读全文

posted @ 2020-09-23 11:27 hnrainll 阅读(631) 评论(0) 推荐(0)

理解Flink之三Transformation

摘要：Transformation 是 Flink操作的底层实现，无论是map还是Flatmap。 DataStream类中包含两个变量： StreamExecutionEnvironment Transformation 或者说DataStream类的所有操作都是围绕着两个变量进行。每一次操作（map 阅读全文

posted @ 2020-06-01 15:50 hnrainll 阅读(1545) 评论(0) 推荐(0)

理解Flink之四State

摘要：在Flink的官网写着：Stateful Computations over Data Streams。基于状态计算的数据流。在流式计算中，希望做一些聚合分析等。那么就需要保存当前日志的状态，以备与后来的日志做比较。在Flink中每个操作都会有状态的保存无论是source、sink还是oper 阅读全文

posted @ 2020-05-26 11:34 hnrainll 阅读(824) 评论(0) 推荐(0)

从Hbase shell理解列式存储

摘要：列存储和行存储在理解上的差别挺大，特别是在非常数据行存储之后。在行存储中，每张表的结构是固定的，某一列可以没有值但是这一列是必须在的。那么可以理解行存储的数据是结构化的。但是列存储确有每行的数据却是可以不一致的。那么，以Hbase来理解列存储。知识点一在Hbase中也有表的概念，在定义表时阅读全文

posted @ 2020-05-22 12:31 hnrainll 阅读(314) 评论(0) 推荐(0)

理解Flink之二Window与Watermark

摘要：Flnk作为流式计算平台，他能对源源不断发送过来的数据进行处理。对于数据流的处理方式，可以是来一条处理一条（pipeline的方式），还可以获取一些数据然后统一处理。对于数据流如何描述一堆数据呢？就是通过Window的概念。 Window Window翻译为窗口，相当于将流式数据进行逻辑切割，那阅读全文

posted @ 2020-05-21 15:04 hnrainll 阅读(901) 评论(0) 推荐(0)

Flink 1.10中idea运行出错invalid flag

摘要：今日好奇，下载Flink 1.10的源码在本机玩一玩。将工程按照正常流程导入IDEA后，运行flink-examples中的demo竟出现如下错误 Error:java: invalid flag: --add-exports=java.base/sun.net.util=ALL-UNNAMED 阅读全文

posted @ 2020-05-08 20:32 hnrainll 阅读(1065) 评论(0) 推荐(0)

Kafka 1.1.1 源码编译

摘要：下载源码 git clone -b 1.1.1 https://github.com/apache/kafka.git --depth=1 使用这样的方式下载主要是解决两个问题：其一，下载指定分支代码，这样不用下载最新代码然后切换到具体的tags。其二，因源码太大而只下载最新的depth可以增快下载阅读全文

posted @ 2020-04-13 10:15 hnrainll 阅读(934) 评论(0) 推荐(0)

平安自在

随笔分类 - 大数据