liudehaos

还历史以真诚,还生命以过程。 ——余秋雨
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  大数据

摘要:1、ADS层 统计指标的方法论 原子指标:下单金额,支付金额 派生指标=原子指标+统计周期+业务限定+统计维度 先在mysql中创建数据库gma_ads 1、支付金额 实时计算每个用户每天实时的支付金额 实时计算每个地区每天的支付金额 实时计算每种支付方式每天支付金额 实时统计每个大区每天的支付金额 阅读全文

posted @ 2022-08-16 11:14 liudehaos 阅读(371) 评论(0) 推荐(0)

摘要:一、flink整合hive的catalog flink的元数据需要存放在hive中,需要创建hive的catalog(可以理解为一个flink中的数据库) -- 进入sql客户端 sql-client.sh -- 创建hive catalog CREATE CATALOG hive_catalog 阅读全文

posted @ 2022-08-16 11:14 liudehaos 阅读(576) 评论(0) 推荐(0)

摘要:一、实时项目框架流程 二、平台搭建 一、项目构建 1、框架版本 hadoop 2.7.6 端口号:hdfs:50070 yarn:8088 hive 1.2.1 zookeeper 3.4.6 hbase 1.4.6 端口号:16010 kafka 1.0.0 Flink 1.15.0 canal: 阅读全文

posted @ 2022-08-11 21:32 liudehaos 阅读(1015) 评论(0) 推荐(0)

摘要:spark优化总结: 一、spark 代码优化 六大代码优化:避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化 尽量避免使用shuffle类算子 使用map-side预聚合的shuffle操作 使用高性能的算子 广播大变量 使用Kryo优化序列化性能 优化数据结构 使用高性 阅读全文

posted @ 2022-07-21 19:55 liudehaos 阅读(1823) 评论(0) 推荐(0)

摘要:HBase学习(四) 一、HBase的读写流程 画出架构 1.1 HBase读流程 Hbase读取数据的流程:1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接2)从zookeeper中获取一个hbase:meta表位置信息,被哪一个regionserver所管理着 hbase:m 阅读全文

posted @ 2022-06-23 16:10 liudehaos 阅读(1236) 评论(0) 推荐(0)

摘要:Hbase学习(三)过滤器 HBase 的基本 API,包括增、删、改、查等。 增、删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白,只能根据特性的行键进行查询(Get)或者根据行键的范围来查询(Scan)。 HBase 不仅提供了这些简单的查询,而且提供了更加高级的过滤器( 阅读全文

posted @ 2022-06-23 15:57 liudehaos 阅读(218) 评论(0) 推荐(0)

摘要:一、Hbase shell 1、Region信息观察 创建表指定命名空间 在创建表的时候可以选择创建到bigdata17这个namespace中,如何实现呢? 使用这种格式即可:‘命名空间名称:表名’ 针对default这个命名空间,在使用的时候可以省略不写 create 'bigdata17:t1 阅读全文

posted @ 2022-06-23 15:55 liudehaos 阅读(221) 评论(0) 推荐(0)

摘要:HBase学习(一) 一、了解HBase 官方文档:https://hbase.apache.org/book.html 1.1 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据 HBase是Hadoop的生态系统之 阅读全文

posted @ 2022-06-23 15:51 liudehaos 阅读(81) 评论(0) 推荐(0)

摘要:Hive优化(面试宝典) 1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设 阅读全文

posted @ 2022-06-23 15:32 liudehaos 阅读(354) 评论(0) 推荐(0)

摘要:第三天笔记 第三天笔记 SQL练习Hive 常用函数关系运算数值计算条件函数日期函数重点!!!字符串函数Hive 中的wordCount1.1 Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战:实战1:Hive用户购买明细数据分析实战1需求:1.1.2 排序开窗函数实战2:Hive分析学生成 阅读全文

posted @ 2022-06-23 15:29 liudehaos 阅读(471) 评论(0) 推荐(0)

摘要:案例一 练习:一:将下列数据加载hive表。 员工信息表emp:字段:员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号英文名:EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO create table emp( EMPNO int ,E 阅读全文

posted @ 2022-06-23 15:22 liudehaos 阅读(297) 评论(0) 推荐(0)

摘要:sql:Hive实现按照指定格式输出每七天的消费平均数输出格式:2018-06-01~2018-06-07 12.29...2018-08-10~2018-08-16 80.67 答案:-- 1、先将日期进行切分得到年月日select split(date_time,'/'),cost from f 阅读全文

posted @ 2022-06-07 21:52 liudehaos 阅读(385) 评论(0) 推荐(0)

摘要:1.3 Hive的安装(前提是:mysql和hadoop必须已经成功启动了) 在之前博客中我有记录安装JDK和Hadoop和Mysql的过程,如果还没有安装,请先进行安装配置好,对应的随笔我也提供了百度云下载连接。 安装JDK: https://www.cnblogs.com/wyh-study/p 阅读全文

posted @ 2022-06-06 10:49 liudehaos 阅读(251) 评论(0) 推荐(0)