摘要:
本文得主要内容在于gitlab的使用上,基于的官方镜像,如果想自己新建镜像文件,则本文满足不了你的要求。 下面我们来看下gitlab的docker镜像怎么用 一、创建镜像容器 1.获取镜像文件 Gitlab在docker的镜像库有官方的镜像文件,直接下载即可 ... 阅读全文
posted @ 2022-07-27 21:09
feitiandamo
阅读(1991)
评论(0)
推荐(0)
摘要:
1.hive的查询引擎mapreduce,spark,tez2.hive调优3.hive数据倾斜是如何产生的,如何解决4.hive的multi-groupby的特性from Ainsert overwrite table Bselect A.a,count(d... 阅读全文
posted @ 2022-07-27 21:09
feitiandamo
阅读(100)
评论(0)
推荐(0)
摘要:
造成hive表数据倾斜的原因归根结底是计算集的key值分布不均匀而造成key值分布不均匀的原因有很多:1.业务本身的特性2.建表时考虑不周3.某些sql语句本身就有数据倾斜1)join时表较小且key集中,使得分发到某一个或几个reduce上的数据远高于平均值... 阅读全文
posted @ 2022-07-27 21:09
feitiandamo
阅读(60)
评论(0)
推荐(0)
摘要:
这个是面试基本都会问到的,从两个方面回答,参数和sql一个是job优化本地执行 hive.exec.mode.local.auto=true1.groupby优化设置hive.groupby.skewindata=true 使其能够分段groupby(各个m... 阅读全文
posted @ 2022-07-27 21:09
feitiandamo
阅读(30)
评论(0)
推荐(0)
摘要:
1.hive的作用 用类SQL的语言HQL来计算HDFS中的数据,主要做海量数据的离线分析,没有实物的概念. 2.Hive更加侧重OLAP( 联机分析处理)的操作 tips: set hive.cli.print.current.db=true//显示... 阅读全文
posted @ 2022-07-27 21:09
feitiandamo
阅读(80)
评论(0)
推荐(0)
摘要:
show functions看一下,发现还蛮多的,需要注意天月时分秒之类的返回的都是数字,不会自动补0,可以使用lpad补全year 获取年 month 获取月 weekofyear 获取周day 获取日hour 获取小时minute 获取分钟second 获... 阅读全文
posted @ 2022-07-27 21:09
feitiandamo
阅读(57)
评论(0)
推荐(0)
摘要:
创建自定义函数的步骤1.创建java类 extends org.apache.hadoop.hive.sql.exec.UDF2.需要实现evalute函数,evalute函数支持重载3.把程序打包放在机器上4.进入hive客户端,上传jar包到hdfs5.创... 阅读全文
posted @ 2022-07-27 21:09
feitiandamo
阅读(151)
评论(0)
推荐(0)
摘要:
kerberos安装 1.server端 # yum install -y krb5-server krb5-libs krb5-auth-dialog client端 # yum install -y krb5-workstation krb5-libs ... 阅读全文
posted @ 2022-07-27 21:09
feitiandamo
阅读(172)
评论(0)
推荐(0)
摘要:
cdh版本的hadoop在对数据安全上的处理通常采用Kerberos+Sentry的结构。 kerberos主要负责平台用户的权限管理,sentry则负责数据的权限管理。 下面我们来依次了解一下: Kerberos包含一个中心节点和若干从节点,所有节点的K... 阅读全文
posted @ 2022-07-27 21:09
feitiandamo
阅读(649)
评论(0)
推荐(0)
摘要:
oracle学过一段时间,这些年也只是偶尔在用,最近解决了oracle相关的两个小问题,现特意做个笔记,留下痕迹,也不枉自己研究了那么久。劝君惜取少年时,不负云和月。oracle的字符集涉及到两个字段,我们可以使用命令查看select * from v$nls... 阅读全文
posted @ 2022-07-27 21:09
feitiandamo
阅读(122)
评论(0)
推荐(0)

浙公网安备 33010602011771号