摘要: 一、背景介绍 在KUDU之前,大数据主要以两种方式存储; (1)静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。 (2)动态数据: 以 HBase、Cassandra 作为存储引擎,适用于大数据随机读写场景。这类存储的局限性是 阅读全文
posted @ 2019-12-03 20:38 liurio 阅读(2371) 评论(0) 推荐(0) 编辑
摘要: https://www.zybuluo.com/mdeditor 阅读全文
posted @ 2018-05-03 10:44 liurio 阅读(292) 评论(0) 推荐(0) 编辑
摘要: tensorflow运行原理分析(源码) https://pan.baidu.com/s/1GJzQg0QgS93rfsqtIMURSA 阅读全文
posted @ 2018-04-10 13:51 liurio 阅读(562) 评论(0) 推荐(0) 编辑
摘要: Flink的Fault Tolerance,是在在Chandy Lamport Algorithm的基础上扩展实现了一套分布式Checkpointing机制,这个机制在论文"Lightweight Asynchronous Snapshots for Distributed Dataflows"中进 阅读全文
posted @ 2018-03-28 21:52 liurio 阅读(627) 评论(0) 推荐(0) 编辑
摘要: Flink的数据流图的生成主要分为简单执行计划-->StreamGraph的生成-->JobGraph的生成-->ExecutionGraph的生成-->物理执行图。其中前三个(ExecutionGraph的之前都是在client上生成的)。ExectuionGraph是JobGraph的并行版本, 阅读全文
posted @ 2018-03-26 21:03 liurio 阅读(1285) 评论(0) 推荐(0) 编辑
摘要: 以Flink源码中自带的WordCount为例,执行的入口从用户程序的execute()函数入手,execute()的源码如下: 函数内部主要有getStreamGraph()、getJobGraph()、exec.start()、exec.submitJobAndWait()等。getStream 阅读全文
posted @ 2018-03-17 18:57 liurio 阅读(7046) 评论(1) 推荐(3) 编辑
摘要: 环境准备 master:171;slave:171,172;flink版本:1.3.0 下载地址:http://archive.apache.org/dist/flink/flink-1.3.0/ 集群安装 1.在yita171中,解压flink-1.3.0-bin-hadoop26-scala_2 阅读全文
posted @ 2018-03-17 17:33 liurio 阅读(827) 评论(0) 推荐(0) 编辑
摘要: 1、Flink架构 Flink系统的架构与Spark类似,是一个基于Master-Slave风格的架构,如下图所示: Flink集群启动时,会启动一个JobManager进程、至少一个TaskManager进程。在Local模式下,会在同一个JVM内部启动一个JobManager进程和TaskMan 阅读全文
posted @ 2018-03-17 16:40 liurio 阅读(993) 评论(0) 推荐(0) 编辑
摘要: Flink 是一个针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。目前主要还是依靠开源社区的贡献而发展。对 Flink 而言,其所要处理的主要场景就是流数据,批数据只是流数据的一个极限特例而已。Flink 会把所有任务当成流来处理,这也是其最大的特点。Flink 可以支持本地的快 阅读全文
posted @ 2018-03-17 16:17 liurio 阅读(1183) 评论(0) 推荐(0) 编辑
摘要: Stream、Transformation、Operator 用户实现的Flink程序是由Stream和Transformation这两个基本构建块组成,其中Stream是一个中间结果数据,而Transformation是一个操作,它对一个或多个输入Stream进行计算处理,输出一个或多个结果Str 阅读全文
posted @ 2018-03-17 16:14 liurio 阅读(643) 评论(0) 推荐(0) 编辑