Spark - 随笔分类 - LestatZ

摘要：总结下Spark中将RDD转换成DataFrame的两种方法, 代码如下：方法一：使用方法方法二：使用方法注意请不要将定义在main 方法中与toDF一起使用，或与使用toDF定义在同一函数中阅读全文

posted @ 2019-05-17 21:45 LestatZ 阅读(2566) 评论(0) 推荐(0)

关于org.apache.spark.deploy.yarn.Client类

摘要：@ "TOC" 前言这个伴生类主要功能是创建/配置ApplicationMaster的应用程序，，准备相关的环境与资源。 Github源码地址：https://github.com/apache/spark/blob/master/resource managers/yarn/src/main/s 阅读全文

posted @ 2019-05-05 12:48 LestatZ 阅读(1730) 评论(0) 推荐(0)

如何使Spark Dataframe区分具有重复名称的列，避免References ambiguous问题

摘要：前言有时候我们在使用Spark中执行Join时候，结果集出现重复的列名，从而导致References ambiguous问题。我们可以用以下方式来解决。实例首先模拟一些数据为了防止出现重复列名的问题，首先可以指定使用哪张表的列，如下：当然我们也可以使用别名alias：除此之外，我们还可以阅读全文

posted @ 2019-04-11 10:53 LestatZ 阅读(2330) 评论(0) 推荐(0)

关于sparksql中的hint

摘要：前言在Spark中，结构化查询可以通过指定查询提示(hint)来进行优化。查询提示，即向查询加入注释，告诉查询优化器提供如何优化逻辑计划，这在查询优化器无法做出最佳决策时十分有用。 Spark SQL支持COALESCE，REPARTITION以及BROADCAST提示。在分析查询语句时，所阅读全文

posted @ 2019-04-08 11:32 LestatZ 阅读(7120) 评论(0) 推荐(0)

如何在Spark-shell中停止打印INFO日志

摘要：前言在使用Spark shell做一些测试时候会产生大量无用的INFO级别的日志，因此想把它们给禁用掉。具体方法如下。解决方法使用自定义的Log4j.properties 然后在提交spark shell时候, 配置 == conf== 即可，这种方法同样适用于Spark submit 也可阅读全文

posted @ 2019-04-02 10:31 LestatZ 阅读(3472) 评论(0) 推荐(0)

关于Spark中的常见问题及解决方法(5) ——Driver OutOfMemoryError或Driver Unresponsive

摘要：前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题，因为它会使我们的Spark应用程序崩溃。但这类问题也经常发生，因为Driver 收集了太多的数据回到驱动程序，使其内存不足。主要症状 Spark应用程序无应答或者崩溃 Driver日阅读全文

posted @ 2019-03-30 11:12 LestatZ 阅读(1208) 评论(0) 推荐(0)

关于Spark中的常见问题及解决方法(4) —— Join操作

摘要：前言 Join和Aggregation操作都可能引起Shuffle，所以这类问题一般具有相似的症状和解决办法。主要症状 Join stage可能一直在运行，它可能包含一个或者多个task。该Join stage前后的stage看起来一切正常。可能的解决方法许多Join可以被手动或自动）优化到阅读全文

posted @ 2019-03-30 10:31 LestatZ 阅读(856) 评论(0) 推荐(0)

关于Spark中的常见问题及解决方法(3) —— Aggregations操作

摘要：前言如果你程序中的聚合速度较慢，请先查看 "Spark Stragglers/任务执行缓慢" 部分。主要症状在执行 groupby 操作时，任务执行缓慢聚合操作的后序操作也很缓慢可能的原因这类问题并没有固定的解决方法。有时候，由于作业中的数据有一些偏斜的键(即数据倾斜)，导致作业执行缓阅读全文

posted @ 2019-03-30 10:16 LestatZ 阅读(567) 评论(0) 推荐(0)

关于Spark中的常见问题及解决方法(2) ——Stragglers/任务执行缓慢

摘要：文章目录前言主要症状可能的原因可能的解决方法总结参考资料文章目录前言主要症状可能的原因可能的解决方法总结参考资料前言主要症状可能的原因可能的解决方法总结参考资料主要症状可能的原因可能的解决方法前言在优化应用程序时，这类问题非常常见，大多数时候可能是由于阅读全文

posted @ 2019-03-27 10:21 LestatZ 阅读(1218) 评论(0) 推荐(0)

关于Spark中的多任务并发处理(Concurrency)

摘要：文章目录 Spark中的多任务处理一个顺序作业的例子一个有缺陷的并发作业的例子一个优化过的并发作业的例子参考资料文章目录 Spark中的多任务处理一个顺序作业的例子一个有缺陷的并发作业的例子一个优化过的并发作业的例子参考资料 Spark中的多任务处理一个顺序作业的例子一个有缺陷阅读全文

posted @ 2019-03-26 15:57 LestatZ 阅读(8422) 评论(0) 推荐(0)

关于Spark中的常见问题及解决方法(1)

摘要：文章目录前言 Spark作业无法启动运行前的出现错误运行中出现错误参考资料文章目录前言 Spark作业无法启动运行前的出现错误运行中出现错误参考资料前言 Spark作业无法启动运行前的出现错误运行中出现错误参考资料前言 Spark作业无法启动运行前的出现错误运行中出现阅读全文

posted @ 2019-03-26 14:20 LestatZ 阅读(1519) 评论(0) 推荐(0)

关于SparkSession

摘要：关于SparkSession 任何Spark程序的第一步都是先创建SparkSession。在Spark-Shell或者其他交互模式中，SparkSession已经预先被创建好了，但在正常编写的Spark程序中，我们必须手动创建SparkSession。在一些遗留的Spark代码中，我们一般使用阅读全文

posted @ 2019-03-26 11:15 LestatZ 阅读(995) 评论(0) 推荐(0)

关于Spark RDD API中的Checkpointing

摘要：文章目录什么是Checkpointing 为什么使用Checkpointing 哪些RDD需要使用Checkpointing Checkpointing和Cache的区别参考资料文章目录什么是Checkpointing 为什么使用Checkpointing 哪些RDD需要使用Checkpoi 阅读全文

posted @ 2019-03-25 18:42 LestatZ 阅读(348) 评论(0) 推荐(0)

Spark结构化API的执行过程——Logical Plan & Physical Plan

摘要：执行的基本步骤简单来说，Spark 对代码中Structured API的执行主要有以下几个步骤：我们可以通过console(如spark-shell)或者submit job(spark-submit)等方法将我们的代码提交到Spark。Spark使用 Catalyst Optimizer 优阅读全文

posted @ 2019-03-21 10:35 LestatZ 阅读(1461) 评论(1) 推荐(0)

关于Spark中Columns的引用方法

摘要：在Spark中有多种可以构建或者引用columns的方法，但是最简单的还是使用col 或者column函数。方法如下：在Scala中，还有其他一些特殊的并且更方便的方法来引用columns。例如以下的语法糖同样可以用来引用或者创建一个column(性能上没有差别)： $ 允许我们指定某个字符串来引阅读全文

posted @ 2019-03-19 11:52 LestatZ 阅读(838) 评论(0) 推荐(0)

关于Spark Dataset API中的Typed transformations和Untyped transformations

摘要：文章目录前言关于Dataset 关于Dataset API Typed and Un-typed APIs 关于Transformations Typed transformations vs Untyped transformations 总结参考资料文章目录前言关于Dataset 关阅读全文

posted @ 2019-03-17 19:37 LestatZ 阅读(548) 评论(0) 推荐(0)

Spark中RDD、DataFrame和DataSet的区别

摘要：文章目录前言 RDD、DataFrame和DataSet的定义 RDD、DataFrame和DataSet的比较 Spark版本数据表示形式数据格式编译时类型安全序列化垃圾回收效率/内存使用编程语言支持聚合操作(Aggregation) 结论文章目录前言 RDD、DataFra 阅读全文

posted @ 2019-03-01 15:50 LestatZ 阅读(7826) 评论(0) 推荐(0)

如何为Spark应用程序分配--num-executors，--execuor-cores和--executor-memory

摘要：文章目录前言一些资源参数设置的基本知识不同配置的优劣分析第一种方法：使用较小的executors 第二种方法：使用较大的executors 第三种方法：使用优化的executors 文章目录前言一些资源参数设置的基本知识不同配置的优劣分析第一种方法：使用较小的executors 第二阅读全文

posted @ 2019-03-01 13:47 LestatZ 阅读(6653) 评论(1) 推荐(0)

一些常用的Spark SQL调优技巧

摘要：文章目录一些常用的Spark SQL调优技巧文章目录一些常用的Spark SQL调优技巧一些常用的Spark SQL调优技巧一些常用的Spark SQL调优技巧一些常用的Spark SQL调优技巧一些常用的Spark SQL调优技巧使用缓存表在sparksql中，当我们创建表时，我阅读全文

posted @ 2019-03-01 12:49 LestatZ 阅读(3755) 评论(0) 推荐(0)

spark.sql.shuffle.partitions 和 spark.default.parallelism 的区别

摘要：在关于spark任务并行度的设置中，有两个参数我们会经常遇到，spark.sql.shuffle.partitions 和 spark.default.parallelism, 那么这两个参数到底有什么区别的？首先，让我们来看下它们的定义看起来它们的定义似乎也很相似，但在实际测试中， spark 阅读全文

posted @ 2019-02-27 10:30 LestatZ 阅读(2031) 评论(0) 推荐(1)

LestatZ

随笔分类 - Spark

公告