Fork me on GitHub
摘要: 基础语法 集合 阅读全文
posted @ 2020-08-06 12:41 园狐 阅读(409) 评论(0) 推荐(0)
摘要: 基础介绍 Git是目前世界上最先进的分布式版本控制系统。 版本控制系统:记录文档在什么时候被谁改了,改了什么东西。 Git 与 GitHub 两者比较 Git就是一个软件,记录一个或若干文件内容的变化。 GitHub是一个为用户提供git服务的网站。 Git的准备 GitHub账号注册~ 下载女装g 阅读全文
posted @ 2020-08-06 11:43 园狐 阅读(202) 评论(0) 推荐(0)
摘要: | 部分转载自 https://www.deeplearn.me/2892.html 一般写sql经常会遇到行转列或者列转行之类的操作,就像concat_ws之类的函数被广泛的使用,今天这个也是经常要使用的拓展方法。 背景介绍 explode与lateral view在关系型数据库中本身是不该出现的 阅读全文
posted @ 2020-08-06 07:38 园狐 阅读(4348) 评论(0) 推荐(0)
摘要: 1. 创建 Maven 工程 <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec --> <dependency> <groupId>org.apache.hive</groupId> <a 阅读全文
posted @ 2020-08-05 21:00 园狐 阅读(873) 评论(0) 推荐(1)
摘要: 数据仓库 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。 它出于分析性报告和决策支持目的而创建。 数据仓库与数据库区别 数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区 阅读全文
posted @ 2020-08-05 09:48 园狐 阅读(403) 评论(0) 推荐(0)
摘要: #yarn 介绍 yarn主要就是为了调度资源,管理任务等。 YARN总体上是Master/Slave结构,主要由ResourceManager、NodeManager、 ApplicationMaster和Container等几个组件构成。 ResourceManager(RM) 负责处理客户端请 阅读全文
posted @ 2020-08-05 09:14 园狐 阅读(391) 评论(0) 推荐(0)
摘要: 1.hive介绍 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了**hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚 阅读全文
posted @ 2020-08-05 08:32 园狐 阅读(269) 评论(0) 推荐(0)
摘要: 认识Linux系统及基础命令 Linux中一切皆文件 内核 + 文件系统 + shell = Linux Linux是一个树形的文件系统结构 第一层目录:/ 整个文件系统的访问入口 重要的二级目录 bin:存储Linux上常用的命令 dev:放置设备的目录 etc:Linux配置文件目录 home: 阅读全文
posted @ 2020-08-04 22:34 园狐 阅读(164) 评论(0) 推荐(0)
摘要: 基本操作 help 帮助 help timpstampdiff; 登录 退出 - 登录 service mysqld start mysql -uroot -p123456 - 退出 quit 简单查询,不区分大小写 # 查看版本号及当前时间 select version(),user(),curr 阅读全文
posted @ 2020-08-04 22:14 园狐 阅读(214) 评论(0) 推荐(0)
摘要: 一、Flume 采集数据会丢失吗? Flume不会丢失数据,根据Flume的架构原理,其内部有完善的事务机制,Source到Channel是事务性的,Channel到Sink也是事务性的,因此这两个环节不会出现数据的丢失; 唯一可能丢失数据的情况是Channel采用memoryChannel,age 阅读全文
posted @ 2020-08-04 16:35 园狐 阅读(331) 评论(0) 推荐(0)