大数据 - 随笔分类 - liudehaos

项目：实时数仓项目实战（三）构建数数据仓库_ads层指标统计

摘要：1、ADS层统计指标的方法论原子指标：下单金额，支付金额派生指标=原子指标+统计周期+业务限定+统计维度先在mysql中创建数据库gma_ads 1、支付金额实时计算每个用户每天实时的支付金额实时计算每个地区每天的支付金额实时计算每种支付方式每天支付金额实时统计每个大区每天的支付金额阅读全文

posted @ 2022-08-16 11:14 liudehaos 阅读(371) 评论(0) 推荐(0)

项目：实时数仓项目实战（二）构建数数据仓库_ods层和dim层

摘要：一、flink整合hive的catalog flink的元数据需要存放在hive中，需要创建hive的catalog（可以理解为一个flink中的数据库） -- 进入sql客户端 sql-client.sh -- 创建hive catalog CREATE CATALOG hive_catalog 阅读全文

posted @ 2022-08-16 11:14 liudehaos 阅读(576) 评论(0) 推荐(0)

项目：实时数仓项目实战（一）平台搭建

摘要：一、实时项目框架流程二、平台搭建一、项目构建 1、框架版本 hadoop 2.7.6 端口号：hdfs:50070 yarn:8088 hive 1.2.1 zookeeper 3.4.6 hbase 1.4.6 端口号：16010 kafka 1.0.0 Flink 1.15.0 canal: 阅读全文

posted @ 2022-08-11 21:32 liudehaos 阅读(1015) 评论(0) 推荐(0)

spark 优化总结(面试必问)

摘要：spark优化总结: 一、spark 代码优化六大代码优化:避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化尽量避免使用shuffle类算子使用map-side预聚合的shuffle操作使用高性能的算子广播大变量使用Kryo优化序列化性能优化数据结构使用高性阅读全文

posted @ 2022-07-21 19:55 liudehaos 阅读(1823) 评论(0) 推荐(0)

HBase学习（四）二级索引 rowkey设计

摘要：HBase学习（四）一、HBase的读写流程画出架构 1.1 HBase读流程 Hbase读取数据的流程：1）是由客户端发起读取数据的请求，首先会与zookeeper建立连接2）从zookeeper中获取一个hbase:meta表位置信息，被哪一个regionserver所管理着 hbase:m 阅读全文

posted @ 2022-06-23 16:10 liudehaos 阅读(1236) 评论(0) 推荐(0)

Hbase学习（三）过滤器 java API

摘要：Hbase学习（三）过滤器 HBase 的基本 API，包括增、删、改、查等。增、删都是相对简单的操作，与传统的 RDBMS 相比，这里的查询操作略显苍白，只能根据特性的行键进行查询（Get）或者根据行键的范围来查询（Scan）。 HBase 不仅提供了这些简单的查询，而且提供了更加高级的过滤器（阅读全文

posted @ 2022-06-23 15:57 liudehaos 阅读(218) 评论(0) 推荐(0)

HBase学习（二）基本命令 Java api

摘要：一、Hbase shell 1、Region信息观察创建表指定命名空间在创建表的时候可以选择创建到bigdata17这个namespace中，如何实现呢？使用这种格式即可：‘命名空间名称:表名’ 针对default这个命名空间，在使用的时候可以省略不写 create 'bigdata17:t1 阅读全文

posted @ 2022-06-23 15:55 liudehaos 阅读(221) 评论(0) 推荐(0)

HBase学习（一）基本概念和安装基本命令

摘要：HBase学习（一）一、了解HBase 官方文档：https://hbase.apache.org/book.html 1.1 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据 HBase是Hadoop的生态系统之阅读全文

posted @ 2022-06-23 15:51 liudehaos 阅读(81) 评论(0) 推荐(0)

Hive优化（面试宝典）（详细的九个优化）

摘要：Hive优化（面试宝典） 1.1 hive的随机抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设阅读全文

posted @ 2022-06-23 15:32 liudehaos 阅读(354) 评论(0) 推荐(0)

hive常用函数 wordCount--Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战

摘要：第三天笔记第三天笔记 SQL练习Hive 常用函数关系运算数值计算条件函数日期函数重点！！！字符串函数Hive 中的wordCount1.1 Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战：实战1：Hive用户购买明细数据分析实战1需求：1.1.2 排序开窗函数实战2：Hive分析学生成阅读全文

posted @ 2022-06-23 15:29 liudehaos 阅读(471) 评论(0) 推荐(0)

Hive sql 经典题目和复杂hsq

摘要：案例一练习：一：将下列数据加载hive表。员工信息表emp：字段：员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号英文名：EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO create table emp( EMPNO int ,E 阅读全文

posted @ 2022-06-23 15:22 liudehaos 阅读(297) 评论(0) 推荐(0)

hive SQL 初学者题目，实战题目字符串函数，日期拼接，开窗函数。。。。

摘要：sql:Hive实现按照指定格式输出每七天的消费平均数输出格式：2018-06-01~2018-06-07 12.29...2018-08-10~2018-08-16 80.67 答案：-- 1、先将日期进行切分得到年月日select split(date_time,'/'),cost from f 阅读全文

posted @ 2022-06-07 21:52 liudehaos 阅读(385) 评论(0) 推荐(0)

大数据--Hive的安装以及三种交互方式

摘要：1.3 Hive的安装(前提是：mysql和hadoop必须已经成功启动了) 在之前博客中我有记录安装JDK和Hadoop和Mysql的过程，如果还没有安装，请先进行安装配置好，对应的随笔我也提供了百度云下载连接。安装JDK: https://www.cnblogs.com/wyh-study/p 阅读全文

posted @ 2022-06-06 10:49 liudehaos 阅读(251) 评论(0) 推荐(0)

liudehaos

公告

随笔分类 - 大数据