会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Shydow
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
下一页
2021年11月26日
Hadoop小文件影响及解决
摘要: 一、小文件产生的原因 当文件的大小远远小于HDFS block块的大小(hadoop2:128m)就可以当作是一个小文件;具体产生的原因包括一下: 1)实时计算时,如果窗口开的小,在hdfs上会产生很多小文件 2)离线计算,批处理时,在spark或者mr时,没有设置好partition或者reduc
阅读全文
posted @ 2021-11-26 15:14 Shydow
阅读(1310)
评论(0)
推荐(0)
2021年11月23日
Hive面试SQL总结
摘要: 一、连续登陆问题 -- user_id, date, flag-- data: 1 2019-07-11 1 1 2019-07-12 1 1 2019-07-13 1 1 2019-07-14 1 1 2019-07-15 1 1 2019-07-16 1 1 2019-07-17 1 1 201
阅读全文
posted @ 2021-11-23 22:43 Shydow
阅读(222)
评论(0)
推荐(0)
2021年11月22日
Python异常检测以及报警实现
摘要: # -*- encoding: utf-8 -*- ''' @File : launcher.py @Time : 2021/11/16 17:55:00 @Author : Shydow @Version : 1.0 @Desc : 3sigma异常值检测 ''' # here put the i
阅读全文
posted @ 2021-11-22 18:19 Shydow
阅读(605)
评论(0)
推荐(0)
Flink TableApi读取Hbase
摘要: 由于在实时同步数据过程中,需要对数据进行一次初始化维表关联的操作,需要读取HBase里面的历史数据与维表进行关联,刚开始使用spark做离线处理,现在使用Flink做离线的ETL。 环境: Flink:1.12.2 HBase:2.1.0-cdh6.2.1 pom依赖 <!-- Licensed t
阅读全文
posted @ 2021-11-22 17:28 Shydow
阅读(369)
评论(0)
推荐(0)
Hive自定义函数
摘要: 依赖 <!-- 相关依赖 --> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>2.1.1-cdh6.2.1</version> </dependency> <d
阅读全文
posted @ 2021-11-22 15:47 Shydow
阅读(66)
评论(0)
推荐(0)
Hive调优与数据倾斜优化
摘要: 一、Hive调优策略 架构调优1、执行引擎:Hive默认使用的是MR,可以换为Tez,Tez将多个mapReduce任务合并成一个较大的DAG任务,减少mapreduce迭代过程中文件存储,其他的引擎可以是spark,flink等;2、分区分桶表:对于一张较大的表,将其设计成分区表可以提高查询性能,
阅读全文
posted @ 2021-11-22 15:46 Shydow
阅读(566)
评论(0)
推荐(0)
Hive常用的DDL,DQL和分析函数
摘要: DDL -- 创建数据库,默认数据库地址是/user/hive/warehouse CREATE DATABASE IF NOT EXISTS myhive; -- 指定数据库的地址 CREATE DATABASE set_location_hive LOCATION '/custom' -- 删除
阅读全文
posted @ 2021-11-22 11:11 Shydow
阅读(105)
评论(0)
推荐(0)
Hive架构与执行流程
摘要: 架构 CLI用户接口:接受SQL,并返回运行结果 Thrift Server:通过JDBC或者ODBC访问hive MetaStore:hive的元数据存储在关系型数据库中,元数据包括:数据库名,表名及类型,字段名称及数据类型,数据存储位置等 驱动程序: 解析器:使用第三方工具(antlr)将HSQ
阅读全文
posted @ 2021-11-22 09:47 Shydow
阅读(208)
评论(0)
推荐(0)
2021年11月21日
重温hive的一些记录和想法
摘要: 特殊数据类型 ARRAY,MAP,STRUCT CREATE TABLE employee( name string, salary double, subor array<string>, dedu map<string, double>, address struct<street:string
阅读全文
posted @ 2021-11-21 19:53 Shydow
阅读(53)
评论(0)
推荐(0)
Hive搭建
摘要: 前提 需要安装hadoop和MySQL数据库 安装步骤 解压初始化环境变量 tar -zxvf apache-hive-2.3.4-bin.tar.gz -C /app/export HIVE_HOME=/app/apache-hive-2.3.4-binexport PATH=$PATH:$HIV
阅读全文
posted @ 2021-11-21 17:57 Shydow
阅读(118)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
下一页
公告