摘要:在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类 阅读全文
posted @ 2021-04-08 11:39 大数据学习与分享 阅读(258) 评论(0) 推荐(0) 编辑
摘要:在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类 阅读全文
posted @ 2021-04-06 11:19 大数据学习与分享 阅读(183) 评论(0) 推荐(0) 编辑
摘要:如果你经常使用Spark SQL进行数据的处理分析,那么对笛卡尔积的危害性一定不陌生,比如大量占用集群资源导致其他任务无法正常执行,甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免呢 阅读全文
posted @ 2021-03-16 11:30 大数据学习与分享 阅读(201) 评论(0) 推荐(1) 编辑
摘要:虽然通过改写Not in Subquery的SQL,进行低效率的SQL到高效率的SQL过渡,能够避免上面所说的问题。但是这往往建立在我们发现任务执行慢甚至失败,然后排查任务中的SQL 阅读全文
posted @ 2021-03-12 09:28 大数据学习与分享 阅读(102) 评论(0) 推荐(0) 编辑
摘要:通常情况下,企业中会采取轮询或者随机的方式,通过Kafka的producer向Kafka集群生产数据,来尽可能保证Kafk分区之间的数据是均匀分布的。在分区数据均匀分布的前提下,如果 阅读全文
posted @ 2021-03-03 09:00 大数据学习与分享 阅读(566) 评论(0) 推荐(0) 编辑
摘要:在利用数据仓库进行数据处理时,通常有这样一个业务场景,为一个Hive表新增一列自增字段(比如 阅读全文
posted @ 2021-02-26 17:49 大数据学习与分享 阅读(63) 评论(0) 推荐(0) 编辑
摘要:如果你比较熟悉JavaWeb应用开发,那么对Spring框架一定不陌生,并且JavaWeb通常是基于SSM搭起的架构,主要用Java语言开发。但是开发Spark程序,Scala语言往往必不可少。众所周知 阅读全文
posted @ 2021-02-24 17:56 大数据学习与分享 阅读(90) 评论(0) 推荐(0) 编辑
摘要:对于Spark的初学者,往往会有一个疑问:Spark(如SparkRDD、SparkSQL)在处理数据的时候,会将数据都加载到内存再做处理吗? 阅读全文
posted @ 2021-02-22 09:07 大数据学习与分享 阅读(238) 评论(0) 推荐(0) 编辑
摘要:通过《Linux系统层面调优和常见的面试题》,笔者详细介绍了Linux系统层面常用的调优方法和常见的面试题。本篇文章将介绍常用的进行性能检测的Linux命令 阅读全文
posted @ 2021-02-20 17:40 大数据学习与分享 阅读(407) 评论(0) 推荐(3) 编辑
摘要:从概念到使用、从基础到原理、从示例到实战的讲解一个技术,并会结合一些实际中当运用这些技术时遇到的问题 阅读全文
posted @ 2021-02-09 13:10 大数据学习与分享 阅读(115) 评论(0) 推荐(0) 编辑