Spark - 随笔分类(第3页) - 匠人先生

大数据基础之词频统计Word Count

摘要：对文件进行词频统计，是一个大数据领域的hello word级别的应用，来看下实现有多少种： 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Scala单机处理（Array）阅读全文

posted @ 2018-12-13 17:29 匠人先生阅读(3396) 评论(0) 推荐(0)

大叔问题定位分享（12）Spark保存文本类型文件（text、csv、json等）到hdfs时为什么是压缩格式的

摘要：问题重现 rdd.repartition(1).write.csv(outPath) 写文件之后发现文件是压缩过的 write时首先会获取hadoopConf，然后从中获取是否压缩以及压缩格式 org.apache.spark.sql.execution.datasources.DataSource 阅读全文

posted @ 2018-12-12 17:25 匠人先生阅读(2161) 评论(0) 推荐(0)

大叔问题定位分享（11）Spark中对大表子查询加limit为什么会报Broadcast超时错误

摘要：当两个表需要join时，如果一个是大表，一个是小表，正常的map-reduce流程需要shuffle，这会导致大表数据在节点间网络传输，常见的优化方式是将小表读到内存中并广播到大表处理，避免shuffle+reduce；在hive中叫mapjoin（map-side join），配置为 hive. 阅读全文

posted @ 2018-12-12 17:09 匠人先生阅读(7094) 评论(0) 推荐(0)

大叔经验分享（5）oozie提交spark任务如何添加依赖

摘要：spark任务添加依赖的方式： 1 如果是local方式运行，可以通过--jars来添加依赖； 2 如果是yarn方式运行，可以通过spark.yarn.jars来添加依赖；这两种方式在oozie上都行不通，首先oozie上没办法也不应该通过local运行，其次通过spark.yarn.jars方阅读全文

posted @ 2018-12-12 16:57 匠人先生阅读(1645) 评论(0) 推荐(1)

大叔问题定位分享（10）提交spark任务偶尔报错 org.apache.spark.SparkException: A master URL must be set in your configuration

摘要：spark 2.1.1 一问题重现问题代码示例 object MethodPositionTest { val sparkConf = new SparkConf().setAppName("MethodPositionTest") val sc = new SparkContext(spark 阅读全文

posted @ 2018-12-12 16:28 匠人先生阅读(3222) 评论(0) 推荐(0)

大叔问题定位分享（9）oozie提交spark任务报 java.lang.NoClassDefFoundError: org/apache/kafka/clients/producer/KafkaProducer

摘要：oozie中支持很多的action类型，比如spark、hive，对应的标签为： <spark xmlns="uri:oozie:spark-action:0.1"> ... oozie中sharelib用于存放每个action类型需要的依赖，可以查看当前所有的action类型以及每个action类阅读全文

posted @ 2018-12-12 16:08 匠人先生阅读(3722) 评论(0) 推荐(0)

大叔问题定位分享（8）提交spark任务报错 Caused by: java.lang.ClassNotFoundException: org.I0Itec.zkclient.exception.ZkNoNodeException

摘要：spark 2.1.1 一问题重现 spark-submit --master local[*] --class app.package.AppClass --jars /jarpath/zkclient-0.3.jar --driver-memory 1g app.jar 报错 Java Hot 阅读全文

posted @ 2018-12-12 15:38 匠人先生阅读(2887) 评论(0) 推荐(0)

大数据基础之Spark（2）Spark on Yarn：container memory allocation容器内存分配

摘要：spark 2.1.1 最近spark任务（spark on yarn）有一个报错 Diagnostics: Container [pid=5901,containerID=container_1542879939729_30802_01_000001] is running beyond phys 阅读全文

posted @ 2018-12-11 15:13 匠人先生阅读(2910) 评论(0) 推荐(1)

大叔问题定位分享（7）Spark任务中Job进度卡住不动

摘要：Spark2.1.1 最近运行spark任务时会发现任务经常运行很久，具体job如下： Job Id ▾ Description Submitted Duration Stages: Succeeded/Total Tasks (for all stages): Succeeded/Total 16 阅读全文

posted @ 2018-12-03 18:21 匠人先生阅读(7495) 评论(0) 推荐(2)

大叔问题定位分享（2）spark任务一定几率报错java.lang.NoSuchFieldError: HIVE_MOVE_FILES_THREAD_COUNT

摘要：最近用yarn cluster方式提交spark任务时，有时会报错，报错几率是40%，报错如下： 18/03/15 21:50:36 116 ERROR ApplicationMaster91: User class threw exception: org.apache.spark.sql.Ana 阅读全文

posted @ 2018-11-02 15:01 匠人先生阅读(2676) 评论(0) 推荐(0)

大数据基础之Spark（1）Spark Submit即Spark任务提交过程

摘要：Spark2.1.1 一 Spark Submit本地解析 1.1 现象提交命令： spark-submit --master local[10] --driver-memory 30g --class app.package.AppClass app-1.0.jar 进程： hadoop 225 阅读全文

posted @ 2018-10-20 10:08 匠人先生阅读(3328) 评论(0) 推荐(0)

Thinking in BigData

匠人先生

随笔分类 - Spark

公告