随笔分类 -  大数据相关

摘要:前言 之前在 Flink 学习 — Flink 配置文件说明 讲过 Flink 的配置,但是后面陆续有人来问我一些配置相关的东西,在加上我现在对 Flink 也更熟悉了些,这里我就再写下 Flink JobManager 的配置相关信息。 在 Flink 学习 — Apache Flink 入门介绍 阅读全文
posted @ 2021-07-02 14:58 jstarseven 阅读(940) 评论(0) 推荐(0)
摘要:前言 之前写了不少 Flink 文章了,也有不少 demo,但是文章写的时候都是在本地直接运行 Main 类的 main 方法,其实 Flink 是支持在 UI 上上传 Flink Job 的 jar 包,然后运行得。最开始在第一篇 《Flink学习》—— Mac 上搭建 Flink 1.6.0 环 阅读全文
posted @ 2021-06-29 15:33 jstarseven 阅读(3992) 评论(0) 推荐(0)
摘要:前言 前面 FLink 的文章中我们已经介绍了说 Flink 已经有很多自带的 Connector。 1、《从0到1学习Flink》—— Data Source 介绍 2、《从0到1学习Flink》—— Data Sink 介绍 其中包括了 Source 和 Sink 的,后面我也讲了下如何自定义自 阅读全文
posted @ 2021-06-29 15:19 jstarseven 阅读(1695) 评论(0) 推荐(0)
摘要:前言 Flink 在流程序中支持不同的 Time 概念,就比如有 Processing Time、Event Time 和 Ingestion Time。 下面我们一起来看看这几个 Time: Processing Time Processing Time 是指事件被处理时机器的系统时间。 当流程序 阅读全文
posted @ 2021-06-17 09:51 jstarseven 阅读(755) 评论(0) 推荐(0)
摘要:前言 目前有许多数据分析的场景从批处理到流处理的演变, 虽然可以将批处理作为流处理的特殊情况来处理,但是分析无穷集的流数据通常需要思维方式的转变并且具有其自己的术语(例如,“windowing(窗口化)”、“at-least-once(至少一次)”、“exactly-once(只有一次)” )。 对 阅读全文
posted @ 2021-06-17 09:32 jstarseven 阅读(532) 评论(0) 推荐(0)
摘要:前言 在前面 Flink 的文章 《Flink学习》—— Apache Flink 入门介绍 中就说过 Flink 程序的结构 Flink 应用程序结构就是如上图所示: 1、Source: 数据源,Flink 在流处理和批处理上的 source 大概有 4 类:基于本地集合的 source、基于文件 阅读全文
posted @ 2021-06-16 16:42 jstarseven 阅读(817) 评论(0) 推荐(0)
摘要:前言 前篇文章 《Flink学习》—— Data Sink 介绍 介绍了 Flink Data Sink,也介绍了 Flink 自带的 Sink,那么如何自定义自己的 Sink 呢?这篇文章将写一个 demo 教大家将从 Kafka Source 的数据 Sink 到 MySQL 中去。 准备工作 阅读全文
posted @ 2021-06-16 11:10 jstarseven 阅读(504) 评论(0) 推荐(0)
摘要:前言 再上一篇文章中 《Flink学习》—— Data Source 介绍 讲解了 Flink Data Source ,那么这里就来讲讲 Flink Data Sink 吧。 首先 Sink 的意思是: 大概可以猜到了吧!Data sink 有点把数据存储下来(落库)的意思。 如上图,Source 阅读全文
posted @ 2021-06-16 10:33 jstarseven 阅读(752) 评论(0) 推荐(0)
摘要:前言 在 《Flink学习》—— Data Source 介绍 文章中,我给大家介绍了 Flink Data Source 以及简短的介绍了一下自定义 Data Source,这篇文章更详细的介绍下,并写一个 demo 出来让大家理解。 Flink Kafka source 准备工作 我们先来看下 阅读全文
posted @ 2021-06-16 09:53 jstarseven 阅读(889) 评论(0) 推荐(0)
摘要:前言 Data Sources 是什么呢?就字面意思其实就可以知道:数据来源。 Flink 做为一款流式计算框架,它可用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时的处理些实时数据流,实时的产生数据流结果,只要数据源源不断的过来,Flink 就能够一直计算下去,这个 Da 阅读全文
posted @ 2021-06-15 16:33 jstarseven 阅读(1102) 评论(0) 推荐(0)
摘要:前面文章我们已经知道 Flink 是什么东西了,安装好 Flink 后,我们再来看下安装路径下的配置文件吧。 安装目录下主要有 flink-conf.yaml 配置、日志的配置文件、zk 配置、Flink SQL Client 配置。 flink-conf.yaml 基础配置 # jobManage 阅读全文
posted @ 2021-06-15 16:21 jstarseven 阅读(1453) 评论(0) 推荐(0)
摘要:准备工作 1、安装查看 Java 的版本号,推荐使用 Java 8。 安装 Flink 2、在 Mac OS X 上安装 Flink 是非常方便的。推荐通过 homebrew 来安装。 ```java brew install apache-flink ``` 3、检查安装: ```java fli 阅读全文
posted @ 2021-06-15 15:48 jstarseven 阅读(990) 评论(0) 推荐(0)
摘要:前言 Flink 是一种流式计算框架,为什么我会接触到 Flink 呢? 因为我目前在负责的是监控平台的告警部分,负责采集到的监控数据会直接往 kafka 里塞,然后告警这边需要从 kafka topic 里面实时读取到监控数据,并将读取到的监控数据做一些 聚合/转换/计算 等操作,然后将计算后的结 阅读全文
posted @ 2021-06-15 15:33 jstarseven 阅读(1094) 评论(0) 推荐(0)
摘要:前言 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类 阅读全文
posted @ 2019-08-28 16:57 jstarseven 阅读(3695) 评论(0) 推荐(0)
摘要:前言 前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量。 一、作业的默认配置 MapReduce程序的默认配置 1)概述 在我们的MapReduce程序中有一些默认的配置。所以说当我们程序如果要使用这些默认配置时,可以不 阅读全文
posted @ 2017-11-24 15:52 jstarseven 阅读(878) 评论(0) 推荐(0)
摘要:前言 前面的一篇给大家写了一些MapReduce的一些程序,像去重、词频统计、统计分数、共现次数等。这一篇给大家介绍的是关于Combiner优化操作。 一、Combiner概述 1.1、为什么需要Combiner 我们map任务处理的结果是存放在运行map任务的节点上。 map处理的数据的结果在进入 阅读全文
posted @ 2017-11-24 15:50 jstarseven 阅读(406) 评论(0) 推荐(0)
摘要:一、统计好友对数(去重) 1.1、数据准备 joe, jon joe , kia joe, bob joe ,ali kia, joe kia ,jim kia, dee dee ,kia dee, ali ali ,dee ali, jim ali ,bob ali, joe ali ,jon j 阅读全文
posted @ 2017-11-24 15:49 jstarseven 阅读(511) 评论(0) 推荐(0)
摘要:阅读目录(Content) 一、MapReduce并行处理的基本过程 二、MapRrduce输入与输出问题 三、MapReduce实际处理流程 四、一个job的运行流程 4.1、提交作业 4.2、作业初始化 4.3、任务的分配 4.4、任务的执行 4.5、更新任务的执行进度和状态 4.6、任务完成 阅读全文
posted @ 2017-11-24 15:47 jstarseven 阅读(533) 评论(0) 推荐(0)
摘要:阅读目录(Content) 一、写一个MapReduce程序例子 1.1、数据准备 1.2、需求分析 1.3、编写一个解析类解析天气数据 1.4、编写一个MapReduce程序求1992I年的最高温度 1.5、使用Maven打包Jar包上传到Hadoop客户端的Linux服务器中 二、分析上面Map 阅读全文
posted @ 2017-11-24 15:43 jstarseven 阅读(426) 评论(0) 推荐(0)
摘要:阅读目录(Content) 一、背景 二、大数据的并行计算 三、Hadoop的MapReduce概述 3.1、需要MapReduce原因 3.2、MapReduce简介 3.3、MapReduce编程模型 四、编写MapReduce程序 4.1、数据样式与环境 4.2、需求分析 4.3、代码实现 3 阅读全文
posted @ 2017-11-24 15:42 jstarseven 阅读(520) 评论(0) 推荐(0)