文章档案「2021年1月」 - Leo-Wong

（二）hive之分区表

摘要：###分区表：分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。数仓的核心操作也就是写入和查阅读全文

posted @ 2021-01-22 23:07 Leo-Wong 阅读(604) 评论(0) 推荐(0)

Hive之数据库创建、查询、删除

摘要：创建数据库入门写法： hive (default)> create database test; 注：这个数据库的默认在HDFS上的存储路径是/user/hive/warehouse/*.db 位置配置：hive.metastore.warehouse.dir(例如，/user/hive/ware 阅读全文

posted @ 2021-01-22 23:07 Leo-Wong 阅读(1402) 评论(0) 推荐(0)

Scala映射的使用foldLeft生产实践总结

摘要：示例代码： package sparkstreaming import scala.collection.mutable object SparkStreamingDemo01 { def main(args: Array[String]): Unit = { // 两个Map的数据合并 val m 阅读全文

posted @ 2021-01-21 16:40 Leo-Wong 阅读(173) 评论(0) 推荐(0)

SQL之where、hiving、group by的使用总结

摘要：####SQL的执行先后顺序是：from、where 、join 、on、 group by、 having 、select 、distinct、 union、 order by、 limit 执行的过程解释： from：将数据从硬盘加载到数据缓冲区，方便对接下来的数据进行操作。 where：从基表阅读全文

posted @ 2021-01-19 21:57 Leo-Wong 阅读(1112) 评论(0) 推荐(0)

（五）hive之窗口函数

摘要：hive窗口函数：官方文档地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics 窗口：函数运行时计算的数据集的范围；函数：运行时对数据集所执行的函数仅仅支持以下函数：阅读全文

posted @ 2021-01-19 21:56 Leo-Wong 阅读(700) 评论(0) 推荐(0)

Apache Flink简介及应用

摘要：简介 Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。 Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。接下来，我们来介绍一下 Flink 架构中的重要方面。处理无界和有界数据任何类型的数据都可以形成一种事件流。信用阅读全文

posted @ 2021-01-15 08:35 Leo-Wong 阅读(803) 评论(0) 推荐(1)

（一）Spark 特点

摘要：Spark的特性主要有以下四点：快速与 Hadoop 的 MapReduce 相比, Spark 基于内存的运算是 MapReduce 的 100 倍.基于硬盘的运算也要快 10 倍以上. Spark 实现了高效的 DAG 执行引擎, 可以通过基于内存来高效处理数据流易用 Spark 支持 S 阅读全文

posted @ 2021-01-13 08:49 Leo-Wong 阅读(1682) 评论(0) 推荐(0)

flink之watermark的设定

摘要：1、在flink中，watermark由应用程序开发人员生成，这通常需要对相应的领域有一定的了解，然后根据实际情况，总结得到经验值。 2、如果设置延迟太久，收到的结果的速度可能会很慢，解决办法是在在watermark到达之前输出一个近似的结果。 3、如果watermark到达的太早，则可能收到错误的阅读全文

posted @ 2021-01-13 08:06 Leo-Wong 阅读(432) 评论(0) 推荐(0)

（四）Spark之Local运行环境搭建

摘要：环境准备： OS环境：CentOS 7（本示例运行环境） JVM运行环境：JKD1.8 安装参考文章：https://blog.csdn.net/qq_32786873/article/details/78749384?utm_medium=distribute.pc_relevant.none-t 阅读全文

posted @ 2021-01-12 21:43 Leo-Wong 阅读(249) 评论(0) 推荐(0)

（三）Spark核心概念

摘要：Spark属性列表 Driver program(驱动程序) 每个 Spark 应用程序都包含一个驱动程序, 驱动程序负责把并行操作发布到集群上. 驱动程序包含 Spark 应用程序中的主函数, 定义了分布式数据集以应用在集群中. 在前面的wordcount案例集中, spark-shell 就是我阅读全文

posted @ 2021-01-12 21:08 Leo-Wong 阅读(176) 评论(0) 推荐(0)

（二）Spark的核心模块介绍

摘要：Spark其核心内置模块，如图所示：资源调度器(Cluster Manager) Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark 支持在各种集群管理器(Cluster Manager)上运行，目前 Spark 支持 3 阅读全文

posted @ 2021-01-12 19:14 Leo-Wong 阅读(1263) 评论(0) 推荐(0)

生产场景数据湖平台建设实践

摘要：【本文系转载，非本人原创，仅供参考学习】原文链接： https://www.sohu.com/a/231709205_223866 数据湖平台简介数据湖平台是一套混合架构，以传统Oracle与华为FusionInsight HD&LibrA为主，依托统一融合的数据平台，全流程拉通公司产品的研发制阅读全文

posted @ 2021-01-12 10:32 Leo-Wong 阅读(701) 评论(0) 推荐(0)

Scala之Fold：foldRight()与foldLeft()详解

摘要：Fold折叠：化简的一种特殊情况，foldRight()：右折叠，foldLeft()左折叠 override /*TraversableLike*/ def foldLeft[B](z: B)(f: (B, A) => B): B = { var acc = z var these = this 阅读全文

posted @ 2021-01-11 19:32 Leo-Wong 阅读(1919) 评论(0) 推荐(2)

Windows系统搭建Scala开发环境

摘要：Scala语言特点 Scala是一门以Java虚拟机（JVM）为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言，Scala是一门多范式的编程语言，Scala支持面向对象和函数式编程，Scala源代码（.scala）会被编译成Java字节码（.class），然后运行于JVM之上阅读全文

posted @ 2021-01-11 11:49 Leo-Wong 阅读(740) 评论(0) 推荐(0)

（四）hive之分桶表

摘要：分桶表数据存储分区针对的是数据的存储路径；分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区，特别是之前所提到过的要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。创建分桶表 create table s 阅读全文

posted @ 2021-01-10 19:54 Leo-Wong 阅读(636) 评论(0) 推荐(0)

（三）Hive数仓之DML操作

摘要：####数据导入到hive（Load）语法： hive> load data [local] inpath '/filePath/filename.txt' [overwrite] into table tableName [partition (partcol1=val1,…)]; 释义： lo 阅读全文

posted @ 2021-01-10 16:44 Leo-Wong 阅读(205) 评论(0) 推荐(0)

（一）Hive表（管理表、外部表）的创建规则

摘要：####建表语句： CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY 阅读全文

posted @ 2021-01-10 13:02 Leo-Wong 阅读(1337) 评论(0) 推荐(0)

Hive支持的数据类型

摘要：###数据类型：基本数据类型、集合数据类型 ####基本数据类型 ####集合数据类型 ####建表语句： create table test( name string, friends array<string>, children map<string, int>, address struct 阅读全文

posted @ 2021-01-10 12:03 Leo-Wong 阅读(769) 评论(0) 推荐(0)

使用DBeaver客户端工具连接Hive

摘要：####在hive命令行、或者开启hiveserver2使用beeline连接hive去查询特别的繁琐，操作也没有那么方便，下面给大家推荐一个程序员爱不释手的高效的开发工具：DBeaver，他来了！ #####可以看到可以用这个客户端连接：mysql、Oracle、hive等。下载地址：链接：h 阅读全文

posted @ 2021-01-10 00:09 Leo-Wong 阅读(1962) 评论(1) 推荐(0)

记一次Flink TableAPI使用的小坑

摘要：废话不多说直接上代码： cat info.txt s_1,1547718120,32.1 s_6,1547718297,17.8 s_7,1547718299,9.5 s_10,1547718205,39.1 s_1,1547718207,37.2 s_3,1547718215,35.6 s_1,1 阅读全文

posted @ 2021-01-07 14:28 Leo-Wong 阅读(3567) 评论(0) 推荐(0)

Flink输出操作之Kafka Sink

摘要：flink输出kafka操作阅读全文

posted @ 2021-01-05 18:27 Leo-Wong 阅读(1373) 评论(1) 推荐(0)

Leo-Wong

01 2021 档案

公告