晓枫的春天 - 博客园

2022年3月14日

摘要： Mysql 是常用的轻量级关系型数据库，也是常见的数据库软件之一，今天记录一下安装mysql的方法，便以后使用 1、软件准备 01_mysql-community-common-5.7.16-1.el7.x86_64.rpm 02_mysql-community-libs-5.7.16-1.el7. 阅读全文

posted @ 2022-03-14 06:59 晓枫的春天阅读(93) 评论(0) 推荐(0)

2022年3月13日

Spark 分布式部署

摘要：一、Yarn 部署简介 Spark自身提供计算资源，无需其他框架提供资源。But 这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。请注意：Spark主要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是和其他专业的资源调度框架集成会更靠谱一些。接下来我们看一下在阅读全文

posted @ 2022-03-13 20:49 晓枫的春天阅读(785) 评论(0) 推荐(0)

Zookeeper 使用(二)

摘要： 1、Zookeeper 内部原理 1.1、Zookeeper 内部选举机制（1）服务器1启动，此时只有它一台服务器启动了，它发出去的报文没有任何响应，所以它的选举状态一直是 LOOKING状态。（2）服务器2启动，它与最开始启动的服务器1进行通信，互相交换自己的选举结果，由于两者都没有历史数据，阅读全文

posted @ 2022-03-13 15:59 晓枫的春天阅读(51) 评论(0) 推荐(0)

Zookeeper 使用(一)

摘要： 1、Zookeeper 概述 1.1、概述 Zookeeper 是一个开源的分布式的，为分布式应用提供协调服务的 Apache 项目工作机制 Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的阅读全文

posted @ 2022-03-13 13:08 晓枫的春天阅读(207) 评论(0) 推荐(0)

2022年3月10日

数据同步工具 DataX 使用

摘要：一、概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 DataX 设计为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成阅读全文

posted @ 2022-03-10 16:36 晓枫的春天阅读(2449) 评论(0) 推荐(1)

hive 用户连续签到天数及历史最大连续签到天数

摘要：需求表temp_user_login，标记每天用户是否签到（说明：该表包含所有用户所有工作日的出勤记录），包含三个字段：日期 date 用户id user_id if_login 0 未签到 1 签到问题1：统计截至当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到阅读全文

posted @ 2022-03-10 12:25 晓枫的春天阅读(632) 评论(0) 推荐(2)

2022年3月9日

关于 hive 分桶重排序的一个栗子

摘要：需求原始数据 year tag 2014 1 2015 1 2016 0 2017 0 2018 0 2020 1 2021 1 2022 1 结果数据 2014 1 1 2015 1 2 2016 0 1 2017 0 2 2018 0 3 2020 1 1 2021 1 2 2022 1 3 阅读全文

posted @ 2022-03-09 17:06 晓枫的春天阅读(57) 评论(0) 推荐(0)

2022年3月8日

hive 剔除极值后取均值问题

摘要：需求描述有一张记录用户购物信息表，第一个字段 shop_id 订单ID，第二个字段 commodity_id 物品ID，第三个字段 sale 物品金额， 110 1 10 订单ID110 物品ID1 金额10 现在要求出每个订单中剔除物品金额最大最小后的平均值。原始数据 shop_id comm 阅读全文

posted @ 2022-03-08 16:26 晓枫的春天阅读(279) 评论(0) 推荐(0)

2022年3月7日

Flink Sink

摘要： Sink有下沉的意思，在Flink中所谓的Sink其实可以表示为将数据存储起来的意思，也可以将范围扩大，表示将处理完的数据发送到指定的存储系统的输出操作. 之前我们一直在使用的print方法其实就是一种Sink kafkaSink 依赖添加 <dependency> <groupId>org.apa 阅读全文

posted @ 2022-03-07 17:53 晓枫的春天阅读(163) 评论(0) 推荐(1)

hive 用户访问时长分析问题

摘要：需求描述数据如下问题：用户总量，用户平均年龄，用户平均观看时长每10岁一个分段，统计每个区间的用户总量，用户平均观看时长每个用户最喜欢的节目观看时长大于5min的用户总量，只要有一个节目用户观看时间小于5min就不能算数据准备 create table temp_userlook_03 阅读全文

posted @ 2022-03-07 17:19 晓枫的春天阅读(266) 评论(0) 推荐(0)

滴水穿石不是靠力，而是因为不舍昼夜。

公告