Spark - 随笔分类 - 大数据学习与分享

摘要：在数据仓库建设中，元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论，可以将元数据分为这三类阅读全文

posted @ 2021-04-08 11:39 大数据学习与分享阅读(1223) 评论(0) 推荐(0)

摘要：如果你经常使用Spark SQL进行数据的处理分析，那么对笛卡尔积的危害性一定不陌生，比如大量占用集群资源导致其他任务无法正常执行，甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积，以及如何事前"预测"写的SQL会产生笛卡尔积从而避免呢阅读全文

posted @ 2021-03-16 11:30 大数据学习与分享阅读(2596) 评论(0) 推荐(1)

Spark SQL中Not in Subquery为何低效以及如何规避

摘要：虽然通过改写Not in Subquery的SQL，进行低效率的SQL到高效率的SQL过渡，能够避免上面所说的问题。但是这往往建立在我们发现任务执行慢甚至失败，然后排查任务中的SQL 阅读全文

posted @ 2021-03-12 09:28 大数据学习与分享阅读(1003) 评论(0) 推荐(0)

Spark和Spring整合处理离线数据

摘要：如果你比较熟悉JavaWeb应用开发，那么对Spring框架一定不陌生，并且JavaWeb通常是基于SSM搭起的架构，主要用Java语言开发。但是开发Spark程序，Scala语言往往必不可少。众所周知阅读全文

posted @ 2021-02-24 17:56 大数据学习与分享阅读(992) 评论(0) 推荐(0)

Spark在处理数据的时候，会将数据都加载到内存再做处理吗？

摘要：对于Spark的初学者，往往会有一个疑问：Spark（如SparkRDD、SparkSQL）在处理数据的时候，会将数据都加载到内存再做处理吗？阅读全文

posted @ 2021-02-22 09:07 大数据学习与分享阅读(809) 评论(0) 推荐(0)

Spark SQL如何选择join策略

摘要：众所周知，Catalyst Optimizer是Spark SQL的核心，它主要负责将SQL语句转换成最终的物理执行计划，在一定程度上决定了SQL 阅读全文

posted @ 2021-01-29 10:41 大数据学习与分享阅读(916) 评论(0) 推荐(0)

SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once

摘要：在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Direct Approach。同时对比阅读全文

posted @ 2021-01-22 10:08 大数据学习与分享阅读(223) 评论(0) 推荐(0)

Spark推荐系统实践

摘要：推荐系统是根据用户的行为、兴趣等特征，将用户感兴趣的信息、产品等推荐给用户的系统，它的出现主要是为了解决信息过载和用户无明确需求的问题，根据划分标准的不同，又分很多种类别阅读全文

posted @ 2021-01-12 10:32 大数据学习与分享阅读(2614) 评论(0) 推荐(1)

Spark MLlib中KMeans聚类算法的解析和应用

摘要：聚类算法是机器学习中的一种无监督学习算法，它在数据科学领域应用场景很广泛，比如基于用户购买行为、兴趣等来构建推荐系统。核心思想可以理解为，阅读全文

posted @ 2021-01-07 09:55 大数据学习与分享阅读(1075) 评论(0) 推荐(0)

自适应查询执行：在运行时提升Spark SQL执行性能

摘要：Catalyst是Spark SQL核心优化器，早期主要基于规则的优化器RBO，后期又引入基于代价进行优化的CBO。但是在这些版本中，Spark SQL执行计划一旦确定就不会改变。由于阅读全文

posted @ 2020-12-21 09:22 大数据学习与分享阅读(1620) 评论(0) 推荐(0)

Spark SQL 小文件问题处理

摘要：在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据，在Spark SQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼的事情。大量的小文件会影响阅读全文

posted @ 2020-12-17 09:27 大数据学习与分享阅读(2621) 评论(0) 推荐(0)

摘要：在推荐系统中，协同过滤算法是应用较多的，具体又主要划分为基于用户和基于物品的协同过滤算法，核心点就是基于"一个人"或"一件物品"，根据这个人或物品所具有的属性，比如阅读全文

posted @ 2020-12-11 08:57 大数据学习与分享阅读(1468) 评论(0) 推荐(0)

Spark流式状态管理（updateStateByKey、mapWithState等）

摘要：通常使用Spark的流式框架如Spark Streaming，做无状态的流式计算是非常方便的，仅需处理每个批次时间间隔内的数据即可，不需要关注之前的数据，这是建立在业务需求对批次之间的数据没有联系的基础之上的。但如果阅读全文

posted @ 2020-12-09 08:58 大数据学习与分享阅读(576) 评论(0) 推荐(0)

Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理

摘要：利用Spark往Hive中存储parquet数据，针对一些复杂数据类型如map、array、struct的处理遇到的问题？为了更好的说明导致问题阅读全文

posted @ 2020-12-04 09:08 大数据学习与分享阅读(1549) 评论(0) 推荐(0)

Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件

摘要：首先说一下，这里解决的问题应用场景：sparksql处理Hive表数据时，判断加载的是否是分区表，以及分区表的字段有哪些？再进一步限制查询分区表必须指定分区？这里涉及到两种情况阅读全文

posted @ 2020-12-03 08:57 大数据学习与分享阅读(1812) 评论(0) 推荐(1)

必须掌握的Spark调优技术点

摘要：在利用Spark处理数据时，如果数据量不大，那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候，就需要做一定的参数配置调整和优化，以保证业务的安全、稳定的运行。并且在实际优化中，要考虑不同的场景，采取不同的优化策略阅读全文

posted @ 2020-11-30 16:06 大数据学习与分享阅读(297) 评论(0) 推荐(1)

Spark SQL | 目前Spark社区最活跃的组件之一

摘要：Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等，制约了Spark各个组件之间的相互集成，因此Spark SQL应运而生阅读全文

posted @ 2020-11-24 09:01 大数据学习与分享阅读(753) 评论(0) 推荐(1)

Spark闭包 | driver & executor程序代码执行

摘要：Spark闭包 | driver & executor程序代码执行 ==> 编写的Spark程序代码，运行在driver端还是executor端呢？阅读全文

posted @ 2020-11-23 09:15 大数据学习与分享阅读(1616) 评论(0) 推荐(2)

重要 | Spark分区并行度决定机制

摘要：最近经常有小伙伴留言，核心问题都比较类似，就是虽然接触Spark有一段时间了，但是搞不明白一个问题，为什么我从HDFS上加载不同的文件时，打印的分区数不一样，并且好像spark.default.parallelism这个参数时不是一直起作用？其实笔者之前的文章已有相关介绍，想知道为什么，就必须了解Spark在加载不同的数据源时分区决定机制以及调用不用算子时并行度决定机制以及分区划分。阅读全文

posted @ 2020-11-19 09:06 大数据学习与分享阅读(1170) 评论(0) 推荐(0)

聊聊Spark的分区、并行度 —— 前奏篇

摘要：聊聊Spark的分区机制，以及通过spark.default.parallelism谈Spark并行度阅读全文

posted @ 2020-11-17 08:59 大数据学习与分享阅读(1288) 评论(0) 推荐(0)

随笔分类 - Spark

公告