01 2021 档案
摘要:###分区表: 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。数仓的核心操作也就是写入和查
阅读全文
摘要:创建数据库 入门写法: hive (default)> create database test; 注:这个数据库的默认在HDFS上的存储路径是/user/hive/warehouse/*.db 位置配置:hive.metastore.warehouse.dir(例如,/user/hive/ware
阅读全文
摘要:示例代码: package sparkstreaming import scala.collection.mutable object SparkStreamingDemo01 { def main(args: Array[String]): Unit = { // 两个Map的数据合并 val m
阅读全文
摘要:####SQL的执行先后顺序是:from、where 、join 、on、 group by、 having 、select 、distinct、 union、 order by、 limit 执行的过程解释: from:将数据从硬盘加载到数据缓冲区,方便对接下来的数据进行操作。 where:从基表
阅读全文
摘要:hive窗口函数: 官方文档地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics 窗口: 函数运行时计算的数据集的范围; 函数: 运行时对数据集所执行的函数 仅仅支持以下函数:
阅读全文
摘要:简介 Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。 Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。 接下来,我们来介绍一下 Flink 架构中的重要方面。 处理无界和有界数据 任何类型的数据都可以形成一种事件流。信用
阅读全文
摘要:Spark的特性主要有以下四点: 快速 与 Hadoop 的 MapReduce 相比, Spark 基于内存的运算是 MapReduce 的 100 倍.基于硬盘的运算也要快 10 倍以上. Spark 实现了高效的 DAG 执行引擎, 可以通过基于内存来高效处理数据流 易用 Spark 支持 S
阅读全文
摘要:1、在flink中,watermark由应用程序开发人员生成,这通常需要对相应的领域有一定的了解,然后根据实际情况,总结得到经验值。 2、如果设置延迟太久,收到的结果的速度可能会很慢,解决办法是在在watermark到达之前输出一个近似的结果。 3、如果watermark到达的太早,则可能收到错误的
阅读全文
摘要:环境准备: OS环境:CentOS 7(本示例运行环境) JVM运行环境:JKD1.8 安装参考文章:https://blog.csdn.net/qq_32786873/article/details/78749384?utm_medium=distribute.pc_relevant.none-t
阅读全文
摘要:Spark属性列表 Driver program(驱动程序) 每个 Spark 应用程序都包含一个驱动程序, 驱动程序负责把并行操作发布到集群上. 驱动程序包含 Spark 应用程序中的主函数, 定义了分布式数据集以应用在集群中. 在前面的wordcount案例集中, spark-shell 就是我
阅读全文
摘要:Spark其核心内置模块,如图所示: 资源调度器(Cluster Manager) Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。 为了实现这样的要求,同时获得最大灵活性,Spark 支持在各种集群管理器(Cluster Manager)上运行,目前 Spark 支持 3
阅读全文
摘要:【本文系转载,非本人原创,仅供参考学习】 原文链接: https://www.sohu.com/a/231709205_223866 数据湖平台简介 数据湖平台是一套混合架构,以传统Oracle与华为FusionInsight HD&LibrA为主,依托统一融合的数据平台,全流程拉通公司产品的研发制
阅读全文
摘要:Fold折叠:化简的一种特殊情况,foldRight():右折叠,foldLeft()左折叠 override /*TraversableLike*/ def foldLeft[B](z: B)(f: (B, A) => B): B = { var acc = z var these = this
阅读全文
摘要:Scala语言特点 Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言,Scala是一门多范式的编程语言,Scala支持面向对象和函数式编程,Scala源代码(.scala)会被编译成Java字节码(.class),然后运行于JVM之上
阅读全文
摘要:分桶表数据存储 分区针对的是数据的存储路径;分桶针对的是数据文件。 分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个疑虑。 分桶是将数据集分解成更容易管理的若干部分的另一个技术。 创建分桶表 create table s
阅读全文
摘要:####数据导入到hive(Load) 语法: hive> load data [local] inpath '/filePath/filename.txt' [overwrite] into table tableName [partition (partcol1=val1,…)]; 释义: lo
阅读全文
摘要:####建表语句: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY
阅读全文
摘要:###数据类型:基本数据类型、集合数据类型 ####基本数据类型 ####集合数据类型 ####建表语句: create table test( name string, friends array<string>, children map<string, int>, address struct
阅读全文
摘要:####在hive命令行、或者开启hiveserver2使用beeline连接hive去查询特别的繁琐,操作也没有那么方便,下面给大家推荐一个程序员爱不释手的高效的开发工具:DBeaver,他来了! #####可以看到可以用这个客户端连接:mysql、Oracle、hive等。 下载地址: 链接:h
阅读全文
摘要:废话不多说直接上代码: cat info.txt s_1,1547718120,32.1 s_6,1547718297,17.8 s_7,1547718299,9.5 s_10,1547718205,39.1 s_1,1547718207,37.2 s_3,1547718215,35.6 s_1,1
阅读全文

浙公网安备 33010602011771号