会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
滴水穿石不是靠力,而是因为不舍昼夜。
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
30
31
32
33
34
35
36
37
38
···
45
下一页
2022年3月14日
Mysql 安装
摘要: Mysql 是常用的轻量级关系型数据库,也是常见的数据库软件之一,今天记录一下安装mysql的方法,便以后使用 1、软件准备 01_mysql-community-common-5.7.16-1.el7.x86_64.rpm 02_mysql-community-libs-5.7.16-1.el7.
阅读全文
posted @ 2022-03-14 06:59 晓枫的春天
阅读(93)
评论(0)
推荐(0)
2022年3月13日
Spark 分布式部署
摘要: 一、Yarn 部署简介 Spark自身提供计算资源,无需其他框架提供资源。But 这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。请注意:Spark主要是计算框架,而不是资源调度框架,所以本身提供的资源调度并不是它的强项,所以还是和其他专业的资源调度框架集成会更靠谱一些。接下来我们看一下在
阅读全文
posted @ 2022-03-13 20:49 晓枫的春天
阅读(779)
评论(0)
推荐(0)
Zookeeper 使用(二)
摘要: 1、Zookeeper 内部原理 1.1、Zookeeper 内部选举机制 (1)服务器1启动,此时只有它一台服务器启动了,它发出去的报文没有任何响应,所以它的选举状态一直是 LOOKING状态。 (2)服务器2启动,它与最开始启动的服务器1进行通信,互相交换自己的选举结果,由于两者都没有历史数据,
阅读全文
posted @ 2022-03-13 15:59 晓枫的春天
阅读(51)
评论(0)
推荐(0)
Zookeeper 使用(一)
摘要: 1、Zookeeper 概述 1.1、概述 Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目 工作机制 Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的
阅读全文
posted @ 2022-03-13 13:08 晓枫的春天
阅读(203)
评论(0)
推荐(0)
2022年3月10日
数据同步工具 DataX 使用
摘要: 一、概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 DataX 设计 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成
阅读全文
posted @ 2022-03-10 16:36 晓枫的春天
阅读(2429)
评论(0)
推荐(1)
hive 用户连续签到天数及历史最大连续签到天数
摘要: 需求 表temp_user_login,标记每天用户是否签到(说明:该表包含所有用户所有工作日的出勤记录) ,包含三个字段:日期 date 用户id user_id if_login 0 未签到 1 签到 问题1:统计截至当前每个用户已经连续签到的天数(输出表仅包含当天签到的所有用户,计算其连续签到
阅读全文
posted @ 2022-03-10 12:25 晓枫的春天
阅读(622)
评论(0)
推荐(2)
2022年3月9日
关于 hive 分桶重排序的一个栗子
摘要: 需求 原始数据 year tag 2014 1 2015 1 2016 0 2017 0 2018 0 2020 1 2021 1 2022 1 结果数据 2014 1 1 2015 1 2 2016 0 1 2017 0 2 2018 0 3 2020 1 1 2021 1 2 2022 1 3
阅读全文
posted @ 2022-03-09 17:06 晓枫的春天
阅读(52)
评论(0)
推荐(0)
2022年3月8日
hive 剔除极值后取均值问题
摘要: 需求描述 有一张记录用户购物信息表,第一个字段 shop_id 订单ID,第二个字段 commodity_id 物品ID,第三个字段 sale 物品金额, 110 1 10 订单ID110 物品ID1 金额10 现在要求出每个订单中剔除物品金额最大最小后的平均值。 原始数据 shop_id comm
阅读全文
posted @ 2022-03-08 16:26 晓枫的春天
阅读(273)
评论(0)
推荐(0)
2022年3月7日
Flink Sink
摘要: Sink有下沉的意思,在Flink中所谓的Sink其实可以表示为将数据存储起来的意思,也可以将范围扩大,表示将处理完的数据发送到指定的存储系统的输出操作. 之前我们一直在使用的print方法其实就是一种Sink kafkaSink 依赖添加 <dependency> <groupId>org.apa
阅读全文
posted @ 2022-03-07 17:53 晓枫的春天
阅读(161)
评论(0)
推荐(1)
hive 用户访问时长分析问题
摘要: 需求描述 数据如下 问题: 用户总量,用户平均年龄,用户平均观看时长 每10岁一个分段,统计每个区间的用户总量,用户平均观看时长 每个用户最喜欢的节目 观看时长大于5min的用户总量,只要有一个节目用户观看时间小于5min就不能算 数据准备 create table temp_userlook_03
阅读全文
posted @ 2022-03-07 17:19 晓枫的春天
阅读(263)
评论(0)
推荐(0)
上一页
1
···
30
31
32
33
34
35
36
37
38
···
45
下一页
公告