摘要:
执行spark任务居然碰到了hive中表的被锁了,导致写数据时失败,这个还真是头一次碰到过这回事。 错误信息如下: 22/09/04 21:02:28 WARN Tasks: Retrying task after failure: Waiting for lock. org.apache.iceb 阅读全文
posted @ 2022-09-04 21:18
硅谷工具人
阅读(486)
评论(0)
推荐(0)
摘要:
感悟:有时候很简单的笨办法,比那些高大上的技术要实用的多。 有一个数据同步,大约4亿条记录,没有分区。现在要按照天,小时分区写入到iceberg的分区表中。 源数据中本身就是很多几十k大小的非常多的小文件。 于是在读取时,总想着要shuffle,合并小文件,于是是这样的: hive_df = spa 阅读全文
posted @ 2022-09-04 12:31
硅谷工具人
阅读(2007)
评论(1)
推荐(3)

浙公网安备 33010602011771号