05 2020 档案

摘要:链接:https://pan.baidu.com/s/1ogTDFJg3ZZc0CyzaTeswWg 提取码:2k0p 安装 // 将压缩包解压到指定目录 [bigdata@linux backup]$ tar -xf mongodb-linux-x86_64-rhel62-3.4.3.tgz -C 阅读全文
posted @ 2020-05-31 16:38 Xiaohu_BigData 阅读(297) 评论(0) 推荐(0)
摘要:Flink中的状态 由一个任务维护,并且用来计算某个结果的所有数据,都属于这个任务的状态;可以认为状态就是一个本地变量,可以被任务的业务逻辑访问;Flink会进行状态管理,包括状态一致性,故障处理以及高效存储和访问,以使开发人员可以专注于应用程序的逻辑。 在Flink中,状态始终与特定算子相关联,为 阅读全文
posted @ 2020-05-30 21:36 Xiaohu_BigData 阅读(1575) 评论(0) 推荐(0)
摘要:1、小文件过多,会过多占用namenode的内存,并浪费block。 - 文件的元数据(包括文件被分成了哪些blocks,每个block存储在哪些服务器的哪个block块上),都是存储在namenode上的。 HDFS的每个文件、目录、数据块占用150B,因此300M内存情况下,只能存储不超过300 阅读全文
posted @ 2020-05-27 18:18 Xiaohu_BigData 阅读(1517) 评论(0) 推荐(0)
摘要:我们在生产实践中经常会遇到这样的场景,需把输入源按照需要进行拆分,比如我期望把订单流按照金额大小进行拆分,或者把用户访问日志按照访问者的地理位置进行拆分等。面对这样的需求该如何操作呢? 大部分的DataStream API的算子的输出时单一输出,也就是某种数据类型的流。除了split算子(使用spl 阅读全文
posted @ 2020-05-24 20:42 Xiaohu_BigData 阅读(846) 评论(0) 推荐(0)
摘要:我们之前学习的转换算子是无法访问时间的时间戳信息和水位线信息的。而这些在一些应用场景下,极为重要,例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。 基于此,DataStreamAPI提供了一系列的Low-Level的转换算子,可以访问时间戳、watermark以 阅读全文
posted @ 2020-05-24 20:15 Xiaohu_BigData 阅读(594) 评论(0) 推荐(0)
摘要:先看上一节的代码程序 package com.wyh.windowsApi import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming.api.functions.timesta 阅读全文
posted @ 2020-05-23 17:02 Xiaohu_BigData 阅读(2343) 评论(0) 推荐(2)
摘要:Flink 框架中支持事件时间、摄入时间和处理时间三种。而当我们在流式计算环境中数据从 Source 产生,再到转换和输出,这个过程由于网络和反压的原因会导致消息乱序。因此,需要有一个机制来解决这个问题,这个特别的机制就是“水位线”。 Flink 的窗口和时间根据窗口数据划分的不同,目前 Flink 阅读全文
posted @ 2020-05-23 16:01 Xiaohu_BigData 阅读(7737) 评论(0) 推荐(0)
摘要:分布式缓存熟悉 Hadoop 的你应该知道,分布式缓存最初的思想诞生于 Hadoop 框架,Hadoop 会将一些数据或者文件缓存在 HDFS 上,在分布式环境中让所有的计算节点调用同一个配置文件。在 Flink 中,Flink 框架开发者们同样将这个特性进行了实现。 Flink 提供的分布式缓存类 阅读全文
posted @ 2020-05-20 20:02 Xiaohu_BigData 阅读(1263) 评论(1) 推荐(1)
摘要:导入依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.46</version> </dependency> 编译代码 package com.wyh. 阅读全文
posted @ 2020-05-20 17:24 Xiaohu_BigData 阅读(2764) 评论(0) 推荐(0)
摘要:导入依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-elasticsearch6_2.11</artifactId> <version>1.7.2</version> </dependen 阅读全文
posted @ 2020-05-20 17:21 Xiaohu_BigData 阅读(1918) 评论(1) 推荐(0)
摘要:添加依赖 <dependency> <groupId>org.apache.bahir</groupId> <artifactId>flink-connector-redis_2.11</artifactId> <version>1.0</version> </dependency> 编写代码 pa 阅读全文
posted @ 2020-05-19 23:30 Xiaohu_BigData 阅读(2025) 评论(0) 推荐(0)
摘要:package com.wyh.streamingApi.sink import java.util.Properties import org.apache.flink.api.common.serialization.SimpleStringSchema import org.apache.fl 阅读全文
posted @ 2020-05-19 23:28 Xiaohu_BigData 阅读(1176) 评论(0) 推荐(0)
摘要:Flink Table & SQL 概述背景我们在前面的课时中讲过 Flink 的分层模型,Flink 自身提供了不同级别的抽象来支持我们开发流式或者批量处理程序,下图描述了 Flink 支持的 4 种不同级别的抽象。 Table API 和 SQL 处于最顶端,是 Flink 提供的高级 API 阅读全文
posted @ 2020-05-16 16:51 Xiaohu_BigData 阅读(5096) 评论(0) 推荐(0)
摘要:一、Split 和 Select (使用split切分过的流是不能被二次切分的) DataStream --> SplitStream : 根据特征把一个DataSteam 拆分成两个或者多个DataStream. SplitStream --> DataStream:从一个SplitStream中 阅读全文
posted @ 2020-05-14 23:58 Xiaohu_BigData 阅读(3683) 评论(0) 推荐(0)
摘要:曾经提到过,Flink 很重要的一个特点是“流批一体”,然而事实上 Flink 并没有完全做到所谓的“流批一体”,即编写一套代码,可以同时支持流式计算场景和批量计算的场景。目前截止 1.10 版本依然采用了 DataSet 和 DataStream 两套 API 来适配不同的应用场景。 DateSe 阅读全文
posted @ 2020-05-13 21:14 Xiaohu_BigData 阅读(1517) 评论(0) 推荐(0)
摘要:Flink 的核心语义和架构模型我们在讲解 Flink 程序的编程模型之前,先来了解一下 Flink 中的 Streams、State、Time 等核心概念和基础语义,以及 Flink 提供的不同层级的 API。 Flink 核心概念Streams(流),流分为有界流和无界流。有界流指的是有固定大小 阅读全文
posted @ 2020-05-13 19:23 Xiaohu_BigData 阅读(854) 评论(0) 推荐(0)
摘要:Flink Table & SQL WordCountFlink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。 一个完整的 Flink SQL 编写的程序包括如下三部分。 Source Operator:是对外部数据源的抽象, 阅读全文
posted @ 2020-05-11 23:02 Xiaohu_BigData 阅读(3472) 评论(0) 推荐(0)
摘要:批处理代码: package com.wyh.wc import org.apache.flink.api.scala._ /** * 批处理代码 */ object WordCount { def main(args: Array[String]): Unit = { //创建一个批处理的一个环境 阅读全文
posted @ 2020-05-11 22:57 Xiaohu_BigData 阅读(1179) 评论(0) 推荐(0)
摘要:Flink 开发环境通常来讲,任何一门大数据框架在实际生产环境中都是以集群的形式运行,而我们调试代码大多数会在本地搭建一个模板工程,Flink 也不例外。 Flink 一个以 Java 及 Scala 作为开发语言的开源大数据项目,通常我们推荐使用 Java 来作为开发语言,Maven 作为编译和包 阅读全文
posted @ 2020-05-11 22:55 Xiaohu_BigData 阅读(2217) 评论(0) 推荐(0)
摘要:实时计算最好的时代 在过去的十年里,面向数据时代的实时计算技术接踵而至。从我们最初认识的 Storm,再到 Spark 的异军突起,迅速占领了整个实时计算领域。直到 2019 年 1 月底,阿里巴巴内部版本 Flink 正式开源!一石激起千层浪,Flink 开源的消息立刻刷爆朋友圈,整个大数据计算领 阅读全文
posted @ 2020-05-11 19:43 Xiaohu_BigData 阅读(890) 评论(1) 推荐(0)
摘要:想进大厂,必须掌握 Flink 技术!!! 随着大数据时代的发展、海量数据的实时处理和多样业务的数据计算需求激增,传统的批处理方式和早期的流式处理框架也有自身的局限性,难以在延迟性、吞吐量、容错能力,以及使用便捷性等方面满足业务日益苛刻的要求。在这种形势下,Flink 以其独特的天然流式计算特性和更 阅读全文
posted @ 2020-05-11 19:24 Xiaohu_BigData 阅读(508) 评论(0) 推荐(0)