spark性能调优之资源调优
摘要:转https://tech.meituan.com/spark-tuning-basic.html spark作业原理 使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启
阅读全文
spark性能调优之开发调优
摘要:转https://tech.meituan.com/spark-tuning-basic.html 原则1.避免创建重复的RDD // 需要对名为“hello.txt”的HDFS文件进行一次map操作,再进行一次reduce操作。也就是说,需要对一份数据执行两次算子操作。 // 错误的做法:对于同一
阅读全文
scala 方式删除本地文件
摘要:首先贴上我的程序:实现的是读入一个文本文件, 然后过滤出包含有“in”的单词 ,计算出现频率写入文件(win7系统) 但是这个程序只能执行一次,第二次本地已经有了\\opt\\eric\\spark-demo这个文件之后,程序就回报错,所以应该在saveasTextFile之前将其删除。 因此发现了
阅读全文
spark2.2.0 初体验
摘要:接着上一篇极简入门 ,打算尝试一下 spark2.2.0 ,结果搞了一下午。 1. 版本问题: sbt 没有换 还是之前的版本,其他的版本 , spark官网上这么说的: 2. build.sbt 文件: 3. 本地intellij idea里直接run spark 程序 ,不使用spark-sub
阅读全文
spark极简入门
摘要:1.windows上下载安装sbt 去sbt官网下载 sbt包,解压到指定目录,不需要安装。记得配置环境变量。 新建 SBT_HOME ,值是sbt包的解压路径,比如C:\Users\***\Tools\sbt-0.13.15\sbt(建议不要放在C盘) 并在path 中添加 %SBT_HOME%\
阅读全文