随笔分类 -  Spark

摘要:对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多少种: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Scala单机处理(Array) 阅读全文
posted @ 2018-12-13 17:29 匠人先生 阅读(3396) 评论(0) 推荐(0)
摘要:问题重现 rdd.repartition(1).write.csv(outPath) 写文件之后发现文件是压缩过的 write时首先会获取hadoopConf,然后从中获取是否压缩以及压缩格式 org.apache.spark.sql.execution.datasources.DataSource 阅读全文
posted @ 2018-12-12 17:25 匠人先生 阅读(2161) 评论(0) 推荐(0)
摘要:当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuffle+reduce; 在hive中叫mapjoin(map-side join),配置为 hive. 阅读全文
posted @ 2018-12-12 17:09 匠人先生 阅读(7094) 评论(0) 推荐(0)
摘要:spark任务添加依赖的方式: 1 如果是local方式运行,可以通过--jars来添加依赖; 2 如果是yarn方式运行,可以通过spark.yarn.jars来添加依赖; 这两种方式在oozie上都行不通,首先oozie上没办法也不应该通过local运行,其次通过spark.yarn.jars方 阅读全文
posted @ 2018-12-12 16:57 匠人先生 阅读(1645) 评论(0) 推荐(1)
摘要:spark 2.1.1 一 问题重现 问题代码示例 object MethodPositionTest { val sparkConf = new SparkConf().setAppName("MethodPositionTest") val sc = new SparkContext(spark 阅读全文
posted @ 2018-12-12 16:28 匠人先生 阅读(3222) 评论(0) 推荐(0)
摘要:oozie中支持很多的action类型,比如spark、hive,对应的标签为: <spark xmlns="uri:oozie:spark-action:0.1"> ... oozie中sharelib用于存放每个action类型需要的依赖,可以查看当前所有的action类型以及每个action类 阅读全文
posted @ 2018-12-12 16:08 匠人先生 阅读(3722) 评论(0) 推荐(0)
摘要:spark 2.1.1 一 问题重现 spark-submit --master local[*] --class app.package.AppClass --jars /jarpath/zkclient-0.3.jar --driver-memory 1g app.jar 报错 Java Hot 阅读全文
posted @ 2018-12-12 15:38 匠人先生 阅读(2887) 评论(0) 推荐(0)
摘要:spark 2.1.1 最近spark任务(spark on yarn)有一个报错 Diagnostics: Container [pid=5901,containerID=container_1542879939729_30802_01_000001] is running beyond phys 阅读全文
posted @ 2018-12-11 15:13 匠人先生 阅读(2910) 评论(0) 推荐(1)
摘要:Spark2.1.1 最近运行spark任务时会发现任务经常运行很久,具体job如下: Job Id ▾ Description Submitted Duration Stages: Succeeded/Total Tasks (for all stages): Succeeded/Total 16 阅读全文
posted @ 2018-12-03 18:21 匠人先生 阅读(7495) 评论(0) 推荐(2)
摘要:最近用yarn cluster方式提交spark任务时,有时会报错,报错几率是40%,报错如下: 18/03/15 21:50:36 116 ERROR ApplicationMaster91: User class threw exception: org.apache.spark.sql.Ana 阅读全文
posted @ 2018-11-02 15:01 匠人先生 阅读(2676) 评论(0) 推荐(0)
摘要:Spark2.1.1 一 Spark Submit本地解析 1.1 现象 提交命令: spark-submit --master local[10] --driver-memory 30g --class app.package.AppClass app-1.0.jar 进程: hadoop 225 阅读全文
posted @ 2018-10-20 10:08 匠人先生 阅读(3328) 评论(0) 推荐(0)