欣欣姐

2021年7月19日

往hive分区表中插入数据时，如果一张表的数据量非常大，需要按照日期分区，且将指定日期的数据插入到对应分区，如果使用进来分区一天一天的手工输入，效率极低，故hive提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。假如有两张表临时表 trade_detail_his Read More

posted @ 2021-07-19 15:30 欣欣姐 Views(3536) Comments(0) Diggs(1)

2021年7月16日

Hive表创建唯一值和唯一标识

需求：在某一张 hive 表中需要有一列值，作为唯一标识，有些类似于MySQL中的自增ID，（唯一标识取别名时，尽量不要表中现有字段重名）方法一，唯一标识： select regexp_replace(reflect("java.util.UUID", "randomUUID"), "-", "" Read More

posted @ 2021-07-16 16:13 欣欣姐 Views(2200) Comments(0) Diggs(0)

2021年7月15日

oracle查询所有表的数据量

查询数据库中每张表的记录条数 select t.table_name,t.num_rows from dba_tables t where owner='XS' ORDER BY NUM_ROWS DESC; Read More

posted @ 2021-07-15 14:39 欣欣姐 Views(3141) Comments(0) Diggs(0)

2021年7月14日

Hive日期时间函数

1.取得当前日期： select current_date(); --返回类型'yyyy-mm-dd',如今天日期'2020-01-01' 2.取得当前日期时间： select current_timestamp(); --返回格式'yyyy-mm-dd hh:mi:ss' 如'2021-07-26 Read More

posted @ 2021-07-14 18:04 欣欣姐 Views(2887) Comments(0) Diggs(0)

2021年7月6日

HDFS经典题目整理

1、Hdfs的block和spark的partition有什么区别吗？在hdfs中的block是分布式存储的最小单元，等分，并且可以设置冗余，这样设计会出现一部分磁盘空间的浪费，但是整齐的block大小，便于快速找到，读取对应的内容，例如快手利用hdfs来进行存储视频。 Spark中的pariti Read More

posted @ 2021-07-06 18:19 欣欣姐 Views(293) Comments(0) Diggs(0)

hive开窗函数详解

1. OVER()：用于指定分析函数工作时的数据窗口大小，这个数据窗口大小可能会随着行的变而变化； 2. CURRENT ROW：当前行； n PRECEDING：往前n行数据； n FOLLOWING：往后n行数据； UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起 Read More

posted @ 2021-07-06 11:22 欣欣姐 Views(948) Comments(0) Diggs(0)

2021年7月5日

datax 批量同步和传输表

有时候，进行全量同步表时，涉及的表会比较多，可以使用参数定义表明的方式进行调用datax的配置文件，这样就不需要每次新增一张表就写一个配置文件 { "job": { "content": [ { "reader": { "name": "oraclereader", "parameter": { Read More

posted @ 2021-07-05 17:17 欣欣姐 Views(4459) Comments(1) Diggs(2)

datax oracle数据同步到oracle （异库同步传输）

由于要实现两个不同数据源的同步，datax可以高效的传输，故在做海量数据同步和迁移时，可以考虑此方法，其中json文件如下。 { "job": { "setting": { "speed": { "channel": 3, "byte": 1048576 }, "errorLimit": { "re Read More

posted @ 2021-07-05 16:26 欣欣姐 Views(2308) Comments(0) Diggs(1)

Datax 从Oracle导入数据到Hive

需要将oracle的数据导入到Hive上去，其实导入到hdfs和导入到hive的配置差不多。查看集群上的文件附上截图配置文件代码 { "job": { "setting": { "speed": { "channel": 3, "byte": 1048576 }, "errorLimit": { Read More

posted @ 2021-07-05 16:15 欣欣姐 Views(2130) Comments(1) Diggs(0)

2021年6月30日

Hive分桶表创建和详解

1. 创建分桶分区表 set hive.enforce.bucketing=true; --设置自动分桶参数 CREATE Table `tmp_wfll_log_url` ( `log_time` string, `log_key` string, `url_detail` string, `ur Read More

posted @ 2021-06-30 18:05 欣欣姐 Views(1125) Comments(0) Diggs(0)

公告