随笔分类 -  大数据

Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
摘要:金三银四,无论今年你有无跳槽计划,这篇文章集锦都值得你反复研读,建议收藏。 高级大数据研发工程师面试题总结 海量大数据处理面试题和思路总结 大数据之数据仓库面试题 一文概览数据仓库知识和面试 数仓相关面试题 经典的SparkSQL/Hive-SQL/MySQL面试-练习题 一文掌握HBase核心知识 阅读全文
posted @ 2022-04-15 17:50 大数据学习与分享 阅读(315) 评论(0) 推荐(0)
摘要:在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类 阅读全文
posted @ 2021-04-08 11:39 大数据学习与分享 阅读(1193) 评论(0) 推荐(0)
摘要:在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类 阅读全文
posted @ 2021-04-06 11:19 大数据学习与分享 阅读(1611) 评论(0) 推荐(0)
摘要:虽然通过改写Not in Subquery的SQL,进行低效率的SQL到高效率的SQL过渡,能够避免上面所说的问题。但是这往往建立在我们发现任务执行慢甚至失败,然后排查任务中的SQL 阅读全文
posted @ 2021-03-12 09:28 大数据学习与分享 阅读(978) 评论(0) 推荐(0)
摘要:如果你比较熟悉JavaWeb应用开发,那么对Spring框架一定不陌生,并且JavaWeb通常是基于SSM搭起的架构,主要用Java语言开发。但是开发Spark程序,Scala语言往往必不可少。众所周知 阅读全文
posted @ 2021-02-24 17:56 大数据学习与分享 阅读(977) 评论(0) 推荐(0)
摘要:推荐系统是根据用户的行为、兴趣等特征,将用户感兴趣的信息、产品等推荐给用户的系统,它的出现主要是为了解决信息过载和用户无明确需求的问题,根据划分标准的不同,又分很多种类别 阅读全文
posted @ 2021-01-12 10:32 大数据学习与分享 阅读(2602) 评论(0) 推荐(1)
摘要:在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼的事情。大量的小文件会影响 阅读全文
posted @ 2020-12-17 09:27 大数据学习与分享 阅读(2609) 评论(0) 推荐(0)
摘要:通常使用Spark的流式框架如Spark Streaming,做无状态的流式计算是非常方便的,仅需处理每个批次时间间隔内的数据即可,不需要关注之前的数据,这是建立在业务需求对批次之间的数据没有联系的基础之上的。但如果 阅读全文
posted @ 2020-12-09 08:58 大数据学习与分享 阅读(567) 评论(0) 推荐(0)
摘要:Hadoop调优 阅读全文
posted @ 2020-11-10 14:32 大数据学习与分享 阅读(391) 评论(0) 推荐(0)
摘要:Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好、延展性好、高容错等特点,多应用于离线数仓建设 阅读全文
posted @ 2020-11-09 09:24 大数据学习与分享 阅读(505) 评论(0) 推荐(0)
摘要:基于大数据分析促进企业的精细化运营、数据驱动,数据分析模型 阅读全文
posted @ 2020-10-29 14:43 大数据学习与分享 阅读(7740) 评论(0) 推荐(0)
摘要:提起大数据,不得不提由IBM提出的关于大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发展,尤以Hadoop和Spark最为突出,已构建起庞大的技术生态体系圈。 阅读全文
posted @ 2020-10-17 20:44 大数据学习与分享 阅读(842) 评论(0) 推荐(0)