2018 年 12月 21 日随笔档案 - 匠人先生

2018年12月21日

摘要：一简介 Shuffle，简而言之，就是对数据进行重新分区，其中会涉及大量的网络io和磁盘io，为什么需要shuffle，以词频统计reduceByKey过程为例， serverA：partition1: (hello, 1), (word, 1)serverB：partition2: (hello 阅读全文

posted @ 2018-12-21 18:54 匠人先生阅读(1771) 评论(0) 推荐(1)

大数据基础之SPARK（9）SPARK中COLLECT和TAKE实现原理

摘要： spark中要将计算结果取回driver，有两种方式：collect和take，这两种方式有什么差别？来看代码： org.apache.spark.rdd.RDD /** * Return an array that contains all of the elements in this RDD. 阅读全文

posted @ 2018-12-21 14:56 匠人先生阅读(2431) 评论(0) 推荐(1)

大叔经验分享（15）spark sql limit实现原理

摘要：之前讨论过hive中limit的实现，详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现，首先看执行计划： spark-sql> explain select * from test1 limit 10 阅读全文

posted @ 2018-12-21 14:36 匠人先生阅读(3633) 评论(0) 推荐(0)

大叔问题定位分享（21）spark执行insert overwrite非常慢，比hive还要慢

摘要：最近把一些sql执行从hive改到spark，发现执行更慢，sql主要是一些insert overwrite操作，从执行计划看到，用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select * from t 阅读全文

posted @ 2018-12-21 11:45 匠人先生阅读(8601) 评论(1) 推荐(1)

大叔经验分享（14）spark on yarn提交任务到集群后spark-submit进程一直等待

摘要： spark on yarn通过--deploy-mode cluster提交任务之后，应用已经在yarn上执行了，但是spark-submit提交进程还在，直到应用执行结束，提交进程才会退出，有时这会很不方便，并且不注意的话还会占用很多资源，比如提交spark streaming应用；最近发现sp 阅读全文

posted @ 2018-12-21 11:15 匠人先生阅读(2949) 评论(0) 推荐(0)

大叔问题定位分享（20）hdfs文件create写入正常，append写入报错

摘要：最近在hdfs写文件的时候发现一个问题，create写入正常，append写入报错，每次都能重现，代码示例如下： FileSystem fs = FileSystem.get(conf); OutputStream out = fs.create(file); IOUtils.copyBytes(i 阅读全文

posted @ 2018-12-21 11:08 匠人先生阅读(1474) 评论(0) 推荐(0)

Thinking in BigData

匠人先生

公告