大数据 - 随笔分类 - 大数据学习与分享

金三银四——大数据/Java面试集锦

摘要：金三银四，无论今年你有无跳槽计划，这篇文章集锦都值得你反复研读，建议收藏。高级大数据研发工程师面试题总结海量大数据处理面试题和思路总结大数据之数据仓库面试题一文概览数据仓库知识和面试数仓相关面试题经典的SparkSQL/Hive-SQL/MySQL面试-练习题一文掌握HBase核心知识阅读全文

posted @ 2022-04-15 17:50 大数据学习与分享阅读(316) 评论(0) 推荐(0)

基于Hive进行数仓建设的资源元数据信息统计：Spark篇

摘要：在数据仓库建设中，元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论，可以将元数据分为这三类阅读全文

posted @ 2021-04-08 11:39 大数据学习与分享阅读(1223) 评论(0) 推荐(0)

基于Hive进行数仓建设的资源元数据信息统计：Hive篇

摘要：在数据仓库建设中，元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论，可以将元数据分为这三类阅读全文

posted @ 2021-04-06 11:19 大数据学习与分享阅读(1623) 评论(0) 推荐(0)

Spark SQL中Not in Subquery为何低效以及如何规避

摘要：虽然通过改写Not in Subquery的SQL，进行低效率的SQL到高效率的SQL过渡，能够避免上面所说的问题。但是这往往建立在我们发现任务执行慢甚至失败，然后排查任务中的SQL 阅读全文

posted @ 2021-03-12 09:28 大数据学习与分享阅读(1003) 评论(0) 推荐(0)

Spark和Spring整合处理离线数据

摘要：如果你比较熟悉JavaWeb应用开发，那么对Spring框架一定不陌生，并且JavaWeb通常是基于SSM搭起的架构，主要用Java语言开发。但是开发Spark程序，Scala语言往往必不可少。众所周知阅读全文

posted @ 2021-02-24 17:56 大数据学习与分享阅读(992) 评论(0) 推荐(0)

Spark推荐系统实践

摘要：推荐系统是根据用户的行为、兴趣等特征，将用户感兴趣的信息、产品等推荐给用户的系统，它的出现主要是为了解决信息过载和用户无明确需求的问题，根据划分标准的不同，又分很多种类别阅读全文

posted @ 2021-01-12 10:32 大数据学习与分享阅读(2614) 评论(0) 推荐(1)

Spark SQL 小文件问题处理

摘要：在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据，在Spark SQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼的事情。大量的小文件会影响阅读全文

posted @ 2020-12-17 09:27 大数据学习与分享阅读(2621) 评论(0) 推荐(0)

Spark流式状态管理（updateStateByKey、mapWithState等）

摘要：通常使用Spark的流式框架如Spark Streaming，做无状态的流式计算是非常方便的，仅需处理每个批次时间间隔内的数据即可，不需要关注之前的数据，这是建立在业务需求对批次之间的数据没有联系的基础之上的。但如果阅读全文

posted @ 2020-12-09 08:58 大数据学习与分享阅读(576) 评论(0) 推荐(0)

Hadoop调优 | NameNode主备宕机引发的思考

摘要：Hadoop调优阅读全文

posted @ 2020-11-10 14:32 大数据学习与分享阅读(397) 评论(0) 推荐(0)

系统解析Apache Hive

摘要：Apache Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供一种HQL语言进行查询，具有扩展性好、延展性好、高容错等特点，多应用于离线数仓建设阅读全文

posted @ 2020-11-09 09:24 大数据学习与分享阅读(520) 评论(0) 推荐(0)

九种常见的数据分析模型

摘要：基于大数据分析促进企业的精细化运营、数据驱动，数据分析模型阅读全文

posted @ 2020-10-29 14:43 大数据学习与分享阅读(7768) 评论(0) 推荐(0)

大数据领域常用技术栈

摘要：提起大数据，不得不提由IBM提出的关于大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性），而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发展，尤以Hadoop和Spark最为突出，已构建起庞大的技术生态体系圈。阅读全文

posted @ 2020-10-17 20:44 大数据学习与分享阅读(857) 评论(0) 推荐(0)

随笔分类 - 大数据

公告