会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
来自遥远的水星
博客园
首页
新随笔
管理
上一页
1
···
5
6
7
8
9
10
11
下一页
2020年7月3日
Flume(一)【概述】
摘要: 一.Flume定义 Flume是Cloudera公司提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume最主要的作用就是,实时读取服务器的本地磁盘的数据,将数据写入到HDFS。 二.Flume基础架构 Flume基本组成架构如下
阅读全文
posted @ 2020-07-03 22:40 来自遥远的水星
阅读(244)
评论(0)
推荐(0)
2020年7月2日
Yarn【架构、原理、多队列配置】
摘要: 一.什么是yarn Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 二.yarn的基本架构和角色 yarn主要由ResourceManager、NodeManager、Applic
阅读全文
posted @ 2020-07-02 16:50 来自遥远的水星
阅读(5901)
评论(0)
推荐(0)
Hive(十二)【调优】
摘要: 1.Fetch抓取 Fetch抓取:Hive中对某些情况的查询可以不必使用MapReduce计算。 例如:SELECT * FROM emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。 在%HIVE_HOME%/conf/hive-default.x
阅读全文
posted @ 2020-07-02 14:13 来自遥远的水星
阅读(254)
评论(0)
推荐(0)
Hive(十一)【压缩、存储】
摘要: 一.Hadoop的压缩配置 1.MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否
阅读全文
posted @ 2020-07-02 11:06 来自遥远的水星
阅读(233)
评论(0)
推荐(0)
2020年6月30日
Hive(十)【窗口函数】
摘要: 一.定义 官网介绍:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics 窗口函数属于sql中比较高级的函数,mysql从8.0版本才支持窗口函数,mysql5.6,5.7都有窗口函
阅读全文
posted @ 2020-06-30 21:04 来自遥远的水星
阅读(451)
评论(0)
推荐(0)
Hive(九)【自定义函数】
摘要: ###自定义函数 Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 用户自定义函数类别分为以下三种 UDF
阅读全文
posted @ 2020-06-30 19:01 来自遥远的水星
阅读(1706)
评论(1)
推荐(0)
Hive(八)【行转列、列转行】
摘要: 一.行转列 相关函数 concat CONCAT(string A/col, string B/col…):对字符串按次序进行拼接 返回类 concat_ws concat_ws(string SEP, string A, string B...):与concat()类似,但使用指定的分隔符喜进行分
阅读全文
posted @ 2020-06-30 00:24 来自遥远的水星
阅读(2311)
评论(0)
推荐(0)
2020年6月29日
Hive(七)【内置函数】
摘要: 一.系统内置函数 1.查看系统自带内置函数 show functions; 2.查看函数的具体用法 如查看upper函数 desc function extended upper; 二.常用内置函数 1.数学函数 round round(DOUBLE a):返回对a四舍五入的BIGINT值 roun
阅读全文
posted @ 2020-06-29 21:25 来自遥远的水星
阅读(242)
评论(0)
推荐(0)
Hive(六)【分区表、分桶表】
摘要: 一.分区表 1.本质 hive存在问题:hive里面没有索引机制,每次查询的时候,hive会暴力扫描整张表;而分区表的本质就是分目录,按照业务需求,把数据分成多个目录存储,然后查询的时候就可以通过where条件指定对应的分区; 2.创建分区表 create table dept_partition(
阅读全文
posted @ 2020-06-29 19:33 来自遥远的水星
阅读(372)
评论(0)
推荐(0)
2020年6月28日
Hive(五)【DQL数据查询】
摘要: 一. 基本查询 1.1 算数运算符 运算符 描述 A+B A和B 相加 A-B A减去B A*B A和B 相乘 A/B A除以B A%B A对B取余 A&B A和B按位取与 A|B A和B按位取或 A^B A和B按位取异或 ~A A按位取反 案例 查询所有员工的薪水然后加1 select sal+1
阅读全文
posted @ 2020-06-28 19:47 来自遥远的水星
阅读(219)
评论(0)
推荐(0)
上一页
1
···
5
6
7
8
9
10
11
下一页