大数据老司机

2022年5月17日

大数据Hadoop之——基于内存型SQL查询引擎Presto（Presto-Trino环境部署）

摘要：一、概述 Presto是Facebook开源的MPP（Massively Parallel Processing：大规模并行处理）架构的OLAP（on-line transaction processing：联机分析处理），完全基于内存的并⾏计算，可针对不同数据源，执行大容量数据集的一款分布式SQL 阅读全文

posted @ 2022-05-17 22:01 大数据老司机阅读(2650) 评论(0) 推荐(0)

2022年5月16日

大数据Hadoop之——Azkaban API详解

摘要：一、Azkaban API概述通常，企业里一般不用使用web UI去设置或者执行任务，只是单纯的在页面上查看任务或者排查问题，更多的是通过Azkaban API去提交执行任务计划。Azkaban提供了一些常用的API操作，可以通过curl或其他HTTP请求客户端访问。但是API调用都需要首先进行适阅读全文

posted @ 2022-05-16 22:14 大数据老司机阅读(1445) 评论(0) 推荐(0)

2022年5月15日

大数据Hadoop之——任务调度器Azkaban（Azkaban环境部署）

摘要：一、概述 1）什么是任务调度？大数据平台技术框架支持的开发语言多种多样，开发人员的背景差异也很大，这就产生出很多不同类型的程序（任务）运行在大数据平台之上，如：MapReduce、Hive、Pig、Spark、Java、Shell、Python 等。这些任务需要不同的运行环境，并且除了定时运行，阅读全文

posted @ 2022-05-15 18:27 大数据老司机阅读(4020) 评论(0) 推荐(1)

2022年5月14日

Scala基础

摘要：一、概述 Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Spark就是使用Scala编写的。因此为了更好的学习大数据开发, 需要掌握Scala这门语言，当然Spark的兴起，也带动Scala语言的发展！官方文档阅读全文

posted @ 2022-05-14 18:08 大数据老司机阅读(570) 评论(0) 推荐(0)

大数据Hadoop之——Flink CEP（Complex Event Processing：复合事件处理）详解（kafka on window）

摘要：一、概述复合事件处理（简称Complex Event Processing：CEP）是一种基于动态环境中事件流的分析技术，事件在这里通常是有意义的状态变化，通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的时序关系和聚合关系制定检测规则，持续地从事件流中查询出符合要求的事件序列，最终分阅读全文

posted @ 2022-05-14 17:04 大数据老司机阅读(1691) 评论(0) 推荐(0)

Git常用操作（Gitlab）

摘要：一、git概述 Git 是一个开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同，它采用了分布式版本库阅读全文

posted @ 2022-05-14 01:11 大数据老司机阅读(1512) 评论(0) 推荐(0)

2022年5月11日

大数据Hadoop之——Flink的状态管理和容错机制(checkpoint)

摘要：一、Flink中的状态官方文档有状态的计算是流处理框架要实现的重要功能，因为稍复杂的流处理场景都需要记录状态，然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能：数据流中的数据有重复，想对重复数据去重，需要记录哪些数据已经流入过应用，当新数据流入时，根据已流入过的数阅读全文

posted @ 2022-05-11 22:04 大数据老司机阅读(1449) 评论(0) 推荐(0)

2022年5月10日

大数据Hadoop之——Flink中的Window API+时间语义+Watermark

摘要：一、window 概念窗口（window）是处理无限流的核心。窗口将流分割成有限大小的“桶”，我们可以在桶上应用计算。本文档重点介绍如何在Flink中执行窗口操作，以及程序员如何从其提供的功能中获得最大的好处。一个有窗口的Flink程序的一般结构如下所示。第一个片段指的是键控流，而第二个片段指的阅读全文

posted @ 2022-05-10 22:17 大数据老司机阅读(1724) 评论(0) 推荐(0)

2022年5月9日

大数据Hadoop之——Flink DataStream API 和 DataSet API

摘要：一、DataStream API概述 Flink 中的 DataStream 程序是对数据流（例如过滤、更新状态、定义窗口、聚合）进行转换的常规程序。数据流的起始是从各种源（例如消息队列、套接字流、文件）创建的。结果通过 sink 返回，例如可以将数据写入文件或标准输出（例如命令行终端）。Flink 阅读全文

posted @ 2022-05-09 21:57 大数据老司机阅读(1180) 评论(0) 推荐(0)

2022年5月8日

大数据Hadoop之——搭建本地flink开发环境详解（window10）

摘要：一、下载安装IDEA IDEA2020.2.3版本：https://www.cnblogs.com/liugp/p/13868346.html 最新版本安装详情请参考：https://www.jb51.net/article/196349.htm 二、搭建本地hadoop环境（window10）可阅读全文

posted @ 2022-05-08 17:23 大数据老司机阅读(3748) 评论(0) 推荐(1)

技术栈

匠人精神，持之以恒！

公告