2022 年 6月 7 日随笔档案 - 唯一的Dove

hive存储格式

摘要：格式类型 Hive支持的存储数据的格式主要有：TEXTFILE 文本格式文件（行式存储）、 SEQUENCEFILE 二进制序列化文件(行式存储)、ORC（列式存储）、PARQUET（列式存储）等。 hive的存储格式通常是：textfile 、 sequencefile 、 rcfile 、 or 阅读全文

posted @ 2022-06-07 19:45 唯一的Dove 阅读(2214) 评论(0) 推荐(0)

动态分区

摘要： Hive动态分区应用场景：不确定分区数量，数据量也不是很大，使用动态分区动态分区，其可以基于查询参数的位置去推断分区的名称，从而建立分区。 Hive的动态分区，其实就是把静态分区中的分区值设置为动态的值 insert overwrite table dynamic_ partition par 阅读全文

posted @ 2022-06-07 19:08 唯一的Dove 阅读(328) 评论(0) 推荐(0)

小文件合并

摘要： Hive 自动合并小文件可以减轻 NameNode 的压力。数据量大可以有更好的压缩效率。并且后续处理这些数据时，任务的启动速度会加快。但是配置稍微复杂，没有一个能用所有引擎的参数。小文件的判断如果一个 job 结束后，生成的文件的平均大小小于参数 hive.merge.smallfile 阅读全文

posted @ 2022-06-07 17:00 唯一的Dove 阅读(342) 评论(0) 推荐(0)

数据倾斜

摘要：数据倾斜的定义数据倾斜是指在并行进行数据处理的时候，由于单个partition的数据显著多余其他部分，分布不均匀，导致大量数据集中分布到一台或者某几台计算节点上，使得该部分的处理速度远低于平均计算速度，成为整个数据集处理的瓶颈，从而影响整体计算性能。几种数据倾斜的解决方案 1、空值引发的数据倾斜阅读全文

posted @ 2022-06-07 16:46 唯一的Dove 阅读(287) 评论(0) 推荐(0)

Hive优化

摘要： #Hive性能优化影响Hive效率的因素：数据倾斜，数据冗余，Job或I/O过多，MapReduce分配不合理 ###优化方法数据倾斜数据倾斜的定义数据倾斜是指在并行进行数据处理的时候，由于单个partition的数据显著多余其他部分，分布不均匀，导致大量数据集中分布到一台或者某几台计算节点阅读全文

posted @ 2022-06-07 16:33 唯一的Dove 阅读(126) 评论(0) 推荐(0)

分桶表意义与作用

摘要：分桶表 ###书写格式 [CLUSTERED BY (col_name, col_name, …) 分桶的字段，是从表的普通字段中来取 [SORTED BY (col_name [ASC|DESC], …)] INTO num_buckets BUCKETS] ###使用场景通常，在管理大规模数据阅读全文

posted @ 2022-06-07 15:47 唯一的Dove 阅读(1050) 评论(0) 推荐(0)

1241187306qq