随笔分类 - 大数据
摘要:下载源码 git clone -b release-1.11.1 https://github.com/apache/flink.git --depth=1 flink-1.11.1 编译 mvn clean install -DskipTests -Dhadoop.version=2.6.0-cd
阅读全文
摘要:Hive功能 通过将SQL转换成MR、Spark等任务,来计算HDFS中数据的工具。 Hive是基于Hadoop之上的数仓工具。通过HDFS存储真实的数据,通过YARN运行计算任务(MR、Spark等可以依赖YARN)。 那么我们简单分析Hive需要具备的能力: 对SQL编译、抽象 将SQL转换成计
阅读全文
摘要:Transformation 是 Flink操作的底层实现,无论是map还是Flatmap。 DataStream类中包含两个变量: StreamExecutionEnvironment Transformation 或者说DataStream类的所有操作都是围绕着两个变量进行。 每一次操作(map
阅读全文
摘要:在Flink的官网写着:Stateful Computations over Data Streams。 基于状态计算的数据流。 在流式计算中,希望做一些聚合分析等。那么就需要保存当前日志的状态,以备与后来的日志做比较。 在Flink中每个操作都会有状态的保存无论是source、sink还是oper
阅读全文
摘要:列存储和行存储在理解上的差别挺大,特别是在非常数据行存储之后。 在行存储中,每张表的结构是固定的,某一列可以没有值但是这一列是必须在的。那么可以理解行存储的数据是结构化的。 但是列存储确有每行的数据却是可以不一致的。 那么,以Hbase来理解列存储。 知识点一 在Hbase中也有表的概念,在定义表时
阅读全文
摘要:Flnk作为流式计算平台,他能对源源不断发送过来的数据进行处理。 对于数据流的处理方式,可以是来一条处理一条(pipeline的方式),还可以获取一些数据然后统一处理。 对于数据流如何描述一堆数据呢?就是通过Window的概念。 Window Window翻译为窗口,相当于将流式数据进行逻辑切割,那
阅读全文
摘要:今日好奇,下载Flink 1.10的源码在本机玩一玩。 将工程按照正常流程导入IDEA后,运行flink-examples中的demo竟出现如下错误 Error:java: invalid flag: --add-exports=java.base/sun.net.util=ALL-UNNAMED
阅读全文
摘要:下载源码 git clone -b 1.1.1 https://github.com/apache/kafka.git --depth=1 使用这样的方式下载主要是解决两个问题:其一,下载指定分支代码,这样不用下载最新代码然后切换到具体的tags。其二,因源码太大而只下载最新的depth可以增快下载
阅读全文

浙公网安备 33010602011771号