Xiaohu_BigData

2020年6月3日

摘要：主要内容：一致性检查点（checkpoint）从检查点恢复到状态 Flink检查点算法保存点（savepoint）一致性检查点（checkpoint） Flink故障恢复机制的核心，就是应用状态的一致性检查点。有状态流应用的一致性检查点，其实就是所有任务的状态，在某个时间点的一份拷贝（可以理阅读全文

posted @ 2020-06-03 21:03 Xiaohu_BigData 阅读(734) 评论(0) 推荐(0)

Spark1.6和2.0版本区别（一）累加器

摘要： 1.6版本 2.0版本阅读全文

posted @ 2020-06-03 16:02 Xiaohu_BigData 阅读(483) 评论(0) 推荐(0)

2020年5月31日

MongoDB学习（一）安装与基本使用

摘要：链接：https://pan.baidu.com/s/1ogTDFJg3ZZc0CyzaTeswWg 提取码：2k0p 安装 // 将压缩包解压到指定目录 [bigdata@linux backup]$ tar -xf mongodb-linux-x86_64-rhel62-3.4.3.tgz -C 阅读全文

posted @ 2020-05-31 16:38 Xiaohu_BigData 阅读(302) 评论(0) 推荐(0)

2020年5月30日

Flink学习（十八）状态管理与状态编程

摘要： Flink中的状态由一个任务维护，并且用来计算某个结果的所有数据，都属于这个任务的状态；可以认为状态就是一个本地变量，可以被任务的业务逻辑访问；Flink会进行状态管理，包括状态一致性，故障处理以及高效存储和访问，以使开发人员可以专注于应用程序的逻辑。在Flink中，状态始终与特定算子相关联，为阅读全文

posted @ 2020-05-30 21:36 Xiaohu_BigData 阅读(1590) 评论(0) 推荐(0)

2020年5月27日

大量小文件不适合存储于HDFS的原因

摘要： 1、小文件过多，会过多占用namenode的内存，并浪费block。 - 文件的元数据（包括文件被分成了哪些blocks，每个block存储在哪些服务器的哪个block块上），都是存储在namenode上的。 HDFS的每个文件、目录、数据块占用150B，因此300M内存情况下，只能存储不超过300 阅读全文

posted @ 2020-05-27 18:18 Xiaohu_BigData 阅读(1528) 评论(0) 推荐(0)

2020年5月24日

Flink学习（十七） Emitting to Side Outputs（侧输出）

摘要：我们在生产实践中经常会遇到这样的场景，需把输入源按照需要进行拆分，比如我期望把订单流按照金额大小进行拆分，或者把用户访问日志按照访问者的地理位置进行拆分等。面对这样的需求该如何操作呢？大部分的DataStream API的算子的输出时单一输出，也就是某种数据类型的流。除了split算子(使用spl 阅读全文

posted @ 2020-05-24 20:42 Xiaohu_BigData 阅读(858) 评论(0) 推荐(0)

Flink学习（十六） ProcessFunctionAPI（底层API）

摘要：我们之前学习的转换算子是无法访问时间的时间戳信息和水位线信息的。而这些在一些应用场景下，极为重要，例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此，DataStreamAPI提供了一系列的Low-Level的转换算子，可以访问时间戳、watermark以阅读全文

posted @ 2020-05-24 20:15 Xiaohu_BigData 阅读(604) 评论(0) 推荐(0)

2020年5月23日

Flink学习（十五）滑动事件时间窗口加上水位线开始窗口时间如何确定？（底层源码）

摘要：先看上一节的代码程序 package com.wyh.windowsApi import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming.api.functions.timesta 阅读全文

posted @ 2020-05-23 17:02 Xiaohu_BigData 阅读(2348) 评论(0) 推荐(2)

Flink学习（十四） Flink 窗口、时间和水位线

摘要： Flink 框架中支持事件时间、摄入时间和处理时间三种。而当我们在流式计算环境中数据从 Source 产生，再到转换和输出，这个过程由于网络和反压的原因会导致消息乱序。因此，需要有一个机制来解决这个问题，这个特别的机制就是“水位线”。 Flink 的窗口和时间根据窗口数据划分的不同，目前 Flink 阅读全文

posted @ 2020-05-23 16:01 Xiaohu_BigData 阅读(7767) 评论(0) 推荐(0)

2020年5月20日

Flink学习（十三） Flink 常见核心概念分析

摘要：分布式缓存熟悉 Hadoop 的你应该知道，分布式缓存最初的思想诞生于 Hadoop 框架，Hadoop 会将一些数据或者文件缓存在 HDFS 上，在分布式环境中让所有的计算节点调用同一个配置文件。在 Flink 中，Flink 框架开发者们同样将这个特性进行了实现。 Flink 提供的分布式缓存类阅读全文

posted @ 2020-05-20 20:02 Xiaohu_BigData 阅读(1275) 评论(1) 推荐(1)

公告