摘要:
有哪些时间语义: Event Time Processing Time Ingestion Time 使用场景: Event Time: 数据本身携带时间,事件达到Flink之前就已经确定的。 Processing Time: 需要低延迟和最好的性能时。 Ingestion Time: 需要生成时间 阅读全文
posted @ 2022-12-04 15:47
不想emo的小李
阅读(149)
评论(7)
推荐(1)
摘要:
HDFS存储小文件的危害以及解决小文件问题的方法: 危害: 如果有大量的小文件的存在,存放的文件数目过多的话会占用很大的内存,甚至撑爆内存。 hdfs使用于高吞吐量,不适合低时间延迟的访问,如果同时存入大量的小文件会花费很长的使时间。hive后者spark计算的时候会影响他们的速度。 访问小文件,则 阅读全文
posted @ 2022-12-04 15:39
不想emo的小李
阅读(491)
评论(0)
推荐(0)
摘要:
Hive的分区表的作用是啥? 越多越好吗?为啥嘞? 分区表的作用: 分区表极小的缩小了,数据的查找范围,提高查询速度和性能。 越多越好吗: 不是的, 原因: hive如果有过多的分区,由于底层是存储在HDFS上,HDFS上只有用于存储大文件,而非下文件,因为过多的分区会增加 NameNode 的负担 阅读全文
posted @ 2022-12-04 10:57
不想emo的小李
阅读(490)
评论(0)
推荐(0)
摘要:
数据倾斜的原因,以及解决方法: 数据倾斜是什么: 数据倾斜就是大量的相同key被partition分配到一个分区里,造成了"一个人累死,其他人闲死"的情况,这违背了并行计算的初衷,整体的效率是十分低下的。 数据倾斜产生的原因: key分布不均匀 业务数据本身的特性 建表时考虑不周 某些SQL语句本身 阅读全文
posted @ 2022-12-04 10:35
不想emo的小李
阅读(696)
评论(0)
推荐(0)
摘要:
Hive自定义函数包括三种UDF、UDAF、UDTF,让我们来看看他们的区别和分别解决的什么问题:😋 区别: UDF : 操作单个数据行,产生的数据行也是单个数据行。 一进一出 UDAF: 操作多行数据,产生一个数据行 多进一处 UDTF: 操作一个数据行,产生多个数据行 一进多出 解决问题: U 阅读全文
posted @ 2022-12-04 10:04
不想emo的小李
阅读(541)
评论(0)
推荐(0)
摘要:
在 hive sql 中有三种排序方式,分别是 row_number rank dense_rank。 让我们看看他们各自的特点, row_number: 每一行记录生生产一个序号,依次排序且不会重复,比如根据分数排序,相同分数也会排出顺序来。 rank: 排序的时候会重复,但是数目不会减少,比如根 阅读全文
posted @ 2022-12-04 09:12
不想emo的小李
阅读(1019)
评论(0)
推荐(0)
摘要:
分区表有外表和内表(管理表)的存在形式,他们的区别是什么? 内部表(管理表): 删除内部表会直接删除元数据以及存储的数据,对内部表的修改会将修改直接同步给元数据; 外部表: 删除外部表仅仅会删除元数据,HDFS上的数据是不会被删除的,对外部表的表结构和分区进行修改,则需要进行修复; 阅读全文
posted @ 2022-12-04 08:41
不想emo的小李
阅读(135)
评论(0)
推荐(0)
摘要:
目的: 在数仓的设计中,通过合理的分层策略,可以平衡储存和计算两个平衡点。 思路: 总题思路就是用空间换时间,其目的就是通过数仓分层,使得数仓能够更好的应对需求的变更和提高数据的稳定性。 结果: 这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。 阅读全文
posted @ 2022-12-03 15:58
不想emo的小李
阅读(163)
评论(0)
推荐(0)
摘要:
如果遇到某些JOB运行时间较长,有哪些情况造成?有什么相对应的处理办法? 原因: 数据倾斜导致效率低 suffle 小文件太多或者分片数量过大 map太多,reduce不够 单条记录开销大,导致spark变慢 spark的吞吐量,单一节点的吞吐量 每一个步骤的RDD操作的空任务和小任务 spark的 阅读全文
posted @ 2022-12-03 15:17
不想emo的小李
阅读(424)
评论(0)
推荐(0)
摘要:
第一篇文章哎,首先希望过几天的大数据比赛要拿到省赛一等奖, 我希望这个网页我可以坚持的做下去,把自己遇到的问题和解决方法,以笔记的方式在自己的博客进行记录,为自己添加知识,也为别人添加参考! 阅读全文
posted @ 2022-12-03 08:43
不想emo的小李
阅读(73)
评论(3)
推荐(0)