随笔分类 -  大数据问题处理分析

摘要:虽然通过改写Not in Subquery的SQL,进行低效率的SQL到高效率的SQL过渡,能够避免上面所说的问题。但是这往往建立在我们发现任务执行慢甚至失败,然后排查任务中的SQL 阅读全文
posted @ 2021-03-12 09:28 大数据学习与分享 阅读(978) 评论(0) 推荐(0)
摘要:在利用数据仓库进行数据处理时,通常有这样一个业务场景,为一个Hive表新增一列自增字段(比如 阅读全文
posted @ 2021-02-26 17:49 大数据学习与分享 阅读(1120) 评论(0) 推荐(0)
摘要:在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼的事情。大量的小文件会影响 阅读全文
posted @ 2020-12-17 09:27 大数据学习与分享 阅读(2609) 评论(0) 推荐(0)