会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
技术栈
匠人精神,持之以恒!
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
21
22
23
24
25
26
27
28
29
···
37
下一页
2022年5月17日
大数据Hadoop之——基于内存型SQL查询引擎Presto(Presto-Trino环境部署)
摘要: 一、概述 Presto是Facebook开源的MPP(Massively Parallel Processing:大规模并行处理)架构的OLAP(on-line transaction processing:联机分析处理),完全基于内存的并⾏计算,可针对不同数据源,执行大容量数据集的一款分布式SQL
阅读全文
posted @ 2022-05-17 22:01 大数据老司机
阅读(2577)
评论(0)
推荐(0)
2022年5月16日
大数据Hadoop之——Azkaban API详解
摘要: 一、Azkaban API概述 通常,企业里一般不用使用web UI去设置或者执行任务,只是单纯的在页面上查看任务或者排查问题,更多的是通过Azkaban API去提交执行任务计划。Azkaban提供了一些常用的API操作,可以通过curl或其他HTTP请求客户端访问。但是API调用都需要首先进行适
阅读全文
posted @ 2022-05-16 22:14 大数据老司机
阅读(1402)
评论(0)
推荐(0)
2022年5月15日
大数据Hadoop之——任务调度器Azkaban(Azkaban环境部署)
摘要: 一、概述 1)什么是任务调度? 大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python 等。 这些任务需要不同的运行环境,并且除了定时运行,
阅读全文
posted @ 2022-05-15 18:27 大数据老司机
阅读(3804)
评论(0)
推荐(1)
2022年5月14日
Scala基础
摘要: 一、概述 Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。Spark就是使用Scala编写的。因此为了更好的学习大数据开发, 需要掌握Scala这门语言,当然Spark的兴起,也带动Scala语言的发展!官方文档
阅读全文
posted @ 2022-05-14 18:08 大数据老司机
阅读(543)
评论(0)
推荐(0)
大数据Hadoop之——Flink CEP(Complex Event Processing:复合事件处理)详解(kafka on window)
摘要: 一、概述 复合事件处理(简称Complex Event Processing:CEP)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,最终分
阅读全文
posted @ 2022-05-14 17:04 大数据老司机
阅读(1673)
评论(0)
推荐(0)
Git常用操作(Gitlab)
摘要: 一、git概述 Git 是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同,它采用了分布式版本库
阅读全文
posted @ 2022-05-14 01:11 大数据老司机
阅读(1486)
评论(0)
推荐(0)
2022年5月11日
大数据Hadoop之——Flink的状态管理和容错机制(checkpoint)
摘要: 一、Flink中的状态 官方文档 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数
阅读全文
posted @ 2022-05-11 22:04 大数据老司机
阅读(1416)
评论(0)
推荐(0)
2022年5月10日
大数据Hadoop之——Flink中的Window API+时间语义+Watermark
摘要: 一、window 概念 窗口(window)是处理无限流的核心。窗口将流分割成有限大小的“桶”,我们可以在桶上应用计算。本文档重点介绍如何在Flink中执行窗口操作,以及程序员如何从其提供的功能中获得最大的好处。 一个有窗口的Flink程序的一般结构如下所示。第一个片段指的是键控流,而第二个片段指的
阅读全文
posted @ 2022-05-10 22:17 大数据老司机
阅读(1699)
评论(0)
推荐(0)
2022年5月9日
大数据Hadoop之——Flink DataStream API 和 DataSet API
摘要: 一、DataStream API概述 Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通过 sink 返回,例如可以将数据写入文件或标准输出(例如命令行终端)。Flink
阅读全文
posted @ 2022-05-09 21:57 大数据老司机
阅读(1161)
评论(0)
推荐(0)
2022年5月8日
大数据Hadoop之——搭建本地flink开发环境详解(window10)
摘要: 一、下载安装IDEA IDEA2020.2.3版本:https://www.cnblogs.com/liugp/p/13868346.html 最新版本安装详情请参考:https://www.jb51.net/article/196349.htm 二、搭建本地hadoop环境(window10) 可
阅读全文
posted @ 2022-05-08 17:23 大数据老司机
阅读(3724)
评论(0)
推荐(1)
上一页
1
···
21
22
23
24
25
26
27
28
29
···
37
下一页
公告