随笔分类 -  spark

Spark2-对于Null/Nan的处理
摘要:一、几种查找空值的方法 1、Column方法 column.isNull/column.isNotNull/column.isNaN 2、类sql方法 二、na方法 2.1 na.drop方法 2.1.1 删除所有列的空值以及NaN 2.1.2 删除某一列的空值和NaN 2.1.3 删除某一列的非空 阅读全文

posted @ 2018-11-16 11:24 厚积!! 阅读(1388) 评论(0) 推荐(0)

Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
摘要:原创文章,转载请务必将下面这段话置于文章开头处。本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/ 摘要 本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map 阅读全文

posted @ 2017-08-15 10:57 厚积!! 阅读(532) 评论(0) 推荐(0)

导航