上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 37 下一页
摘要: 一、概述 Presto是Facebook开源的MPP(Massively Parallel Processing:大规模并行处理)架构的OLAP(on-line transaction processing:联机分析处理),完全基于内存的并⾏计算,可针对不同数据源,执行大容量数据集的一款分布式SQL 阅读全文
posted @ 2022-05-17 22:01 大数据老司机 阅读(2577) 评论(0) 推荐(0)
摘要: 一、Azkaban API概述 通常,企业里一般不用使用web UI去设置或者执行任务,只是单纯的在页面上查看任务或者排查问题,更多的是通过Azkaban API去提交执行任务计划。Azkaban提供了一些常用的API操作,可以通过curl或其他HTTP请求客户端访问。但是API调用都需要首先进行适 阅读全文
posted @ 2022-05-16 22:14 大数据老司机 阅读(1402) 评论(0) 推荐(0)
摘要: 一、概述 1)什么是任务调度? 大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python 等。 这些任务需要不同的运行环境,并且除了定时运行, 阅读全文
posted @ 2022-05-15 18:27 大数据老司机 阅读(3804) 评论(0) 推荐(1)
摘要: 一、概述 Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。Spark就是使用Scala编写的。因此为了更好的学习大数据开发, 需要掌握Scala这门语言,当然Spark的兴起,也带动Scala语言的发展!官方文档 阅读全文
posted @ 2022-05-14 18:08 大数据老司机 阅读(543) 评论(0) 推荐(0)
摘要: 一、概述 复合事件处理(简称Complex Event Processing:CEP)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,最终分 阅读全文
posted @ 2022-05-14 17:04 大数据老司机 阅读(1673) 评论(0) 推荐(0)
摘要: 一、git概述 Git 是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同,它采用了分布式版本库 阅读全文
posted @ 2022-05-14 01:11 大数据老司机 阅读(1486) 评论(0) 推荐(0)
摘要: 一、Flink中的状态 官方文档 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数 阅读全文
posted @ 2022-05-11 22:04 大数据老司机 阅读(1416) 评论(0) 推荐(0)
摘要: 一、window 概念 窗口(window)是处理无限流的核心。窗口将流分割成有限大小的“桶”,我们可以在桶上应用计算。本文档重点介绍如何在Flink中执行窗口操作,以及程序员如何从其提供的功能中获得最大的好处。 一个有窗口的Flink程序的一般结构如下所示。第一个片段指的是键控流,而第二个片段指的 阅读全文
posted @ 2022-05-10 22:17 大数据老司机 阅读(1699) 评论(0) 推荐(0)
摘要: 一、DataStream API概述 Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通过 sink 返回,例如可以将数据写入文件或标准输出(例如命令行终端)。Flink 阅读全文
posted @ 2022-05-09 21:57 大数据老司机 阅读(1161) 评论(0) 推荐(0)
摘要: 一、下载安装IDEA IDEA2020.2.3版本:https://www.cnblogs.com/liugp/p/13868346.html 最新版本安装详情请参考:https://www.jb51.net/article/196349.htm 二、搭建本地hadoop环境(window10) 可 阅读全文
posted @ 2022-05-08 17:23 大数据老司机 阅读(3724) 评论(0) 推荐(1)
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 37 下一页