摘要: Hbase分布式集群搭建 前提:hadoop和zk都要启动 1、启动hadoop start-all.sh 验证 http://master:50070 2、启动zookeeper 需要在在三台中分别启动 zkServer.sh start zkServer.sh status 搭建hbase 1、 阅读全文
posted @ 2022-02-25 22:35 阿伟宝座 阅读(280) 评论(0) 推荐(0)
摘要: Hbase的特点及其生态系统 在Hive中主要做的:传入一条交互式的SQL,在海量数据中查询分析(主要是分析计算) 交互式(REPL):传入一条SQL,返回结果 Read:读,Eval:执行,Print:输出,Loop:循环 1、Hbase的特点 1、适用于实时查询,不能做分析 2、NoSQL,非关 阅读全文
posted @ 2022-02-25 21:02 阿伟宝座 阅读(184) 评论(0) 推荐(1)
摘要: 连续登陆问题案例 在电商、物流和银行可能经常会遇到这样的需求:统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数等 数据: 注意:每个用户每天可能会有多条记录 amount表示金额 id datestr amount 1,2019-02-08,6214.23 1,2019-02- 阅读全文
posted @ 2022-02-25 20:14 阿伟宝座 阅读(203) 评论(0) 推荐(0)
摘要: Hive数仓建模 基于Hive数据仓库建模 Hive-数据仓库建模架构 Hive-数据仓库建模方式 Hive-数据仓库建模范式 Hive-数仓一些专业表称谓 https://blog.csdn.net/zhaodedong/article/details/54177686 阅读全文
posted @ 2022-02-25 00:09 阿伟宝座 阅读(596) 评论(0) 推荐(0)
摘要: Hive调优 一、Hive建表调优 1、分区:大部分按照日期分区:变化快的按照每天的数据放在一个分区里,变化慢的按照每月 分桶:看数据分布地均不均匀,如果不均匀按照分桶表给它划分一下 补充:分区、分桶一般用于设计、架构的时候用到(现阶段用不到) 2、工作上一般使用外部表,避免数据误删。建表的时候需要 阅读全文
posted @ 2022-02-25 00:00 阿伟宝座 阅读(300) 评论(0) 推荐(0)