往hive分区表中插入数据时,如果一张表的数据量非常大,需要按照日期分区,且将指定日期的数据插入到对应分区,如果使用进来分区一天一天的手工输入,效率极低,故hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 假如有两张表临时表 trade_detail_his Read More
1、Hdfs的block和spark的partition有什么区别吗? 在hdfs中的block是分布式存储的最小单元,等分,并且可以设置冗余,这样设计会出现一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到,读取对应的内容,例如快手利用hdfs来进行存储视频。 Spark中的pariti Read More
1. OVER():用于指定分析函数工作时的数据窗口大小,这个数据窗口大小可能会随着行的变而变化; 2. CURRENT ROW:当前行; n PRECEDING:往前n行数据; n FOLLOWING:往后n行数据; UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起 Read More