会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
KongLong_cm
balabala~
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
13
下一页
2023年8月15日
HiveSql数据定义语言(DDL)
摘要: 一、数据定义语言(DDL)概述及建表基础 数据定义语言 (Data Definition Language, DDL),是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括database(schema)、table、view、index等。核心语法由CREAT
阅读全文
posted @ 2023-08-15 22:29 KongLong_cm
阅读(195)
评论(0)
推荐(0)
2023年8月12日
hive的基础与入门
摘要: 一、数据仓库基础理论 1.1 概念 数据仓库(Data Warehouse):简称数仓,是一个用于存储分析报告的数据系统。目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持。 联机事务处理OLTP:操作型处理,主要针对具体业务对少量记录进行查询修改,传统的关系型数据库(RDBMS)作为数
阅读全文
posted @ 2023-08-12 22:21 KongLong_cm
阅读(210)
评论(0)
推荐(0)
2023年8月9日
Zookeeper的学习
摘要: 一、Zookeeper概述 Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。 1.1. zookeeper的特点 1.2 应用场景 提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。 1.统一命名服务:在分布式环境
阅读全文
posted @ 2023-08-09 21:45 KongLong_cm
阅读(39)
评论(0)
推荐(0)
Kfka的学习
摘要: 一、Kafka概述 1.1 定义 Kafka的定义:Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 1.2 消息队列 传统的消息队列的主要应用场景包括:缓存/消峰、解耦和异步通信。 消息队列的两种模式 点对点模式 消息/订阅模式 二、Kafka入门 2.1 Ka
阅读全文
posted @ 2023-08-09 16:41 KongLong_cm
阅读(515)
评论(0)
推荐(0)
2023年8月7日
Flink的基本学习
摘要: 一、概述 ApacheFlink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。 1.1 快速上手 1.哈哈先从Idea上手,先去Idea中创建一个maven项目,添加maven依赖如下: <dependencies> <!-- 引入 Flink 相关依赖--> <dependenc
阅读全文
posted @ 2023-08-07 07:52 KongLong_cm
阅读(150)
评论(0)
推荐(0)
2023年8月4日
SparkSql的学习
摘要: 一、SparkSql概述 SparkSql是Spark的一个模块,用于处理海量结构化数据(注意是只能处理结构化数据)。 1.1 SparkSql和Hive的异同 1.2 SparkSql的数据抽象 1.3 SparkSession对象 SparkSession对象可以用于SparkSql编程作为入口
阅读全文
posted @ 2023-08-04 21:59 KongLong_cm
阅读(101)
评论(0)
推荐(0)
2023年8月3日
SparkCore的学习
摘要: 一、RDD 详解 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。 1.1 RDD的五大特性 1.RDD是有分区的; 2.RDD的方法会作用在其所有分区上; 3.RDD之间可
阅读全文
posted @ 2023-08-03 07:47 KongLong_cm
阅读(33)
评论(0)
推荐(0)
2023年7月30日
Spark入门
摘要: 一、Spark框架概述 1.1 spark是什么 定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 弹性分布式数据集RDD:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,并且有一定的容错方式。而这也是整
阅读全文
posted @ 2023-07-30 20:09 KongLong_cm
阅读(237)
评论(0)
推荐(0)
2023年7月28日
Yarn的学习
摘要: 一、Yarn 资源调度器 Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。 1.1 Yarn 基础架构 YARN 主要由 ResourceManager、NodeManager、A
阅读全文
posted @ 2023-07-28 19:02 KongLong_cm
阅读(84)
评论(0)
推荐(0)
2023年7月18日
MapReduce的学习
摘要: 一、MapReduce的概述 1.1 MapReduce的核心思想 1.2 MapReduce的三类实例进程 1)MrAppMaster:负责整个程序的过程调度及状态协调。 2)MapTask:负责 Map 阶段的整个数据处理流程。 3)ReduceTask:负责 Reduce 阶段的整个数据处理流
阅读全文
posted @ 2023-07-18 17:04 KongLong_cm
阅读(115)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
13
下一页
公告