随笔分类 -  spark

摘要:1.任务是提交在yarn上的,查看 resourceManager页面 有如下信息 Current usage: 58.4 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container 阅读全文
posted @ 2018-08-09 16:54 生心无住 阅读(2627) 评论(0) 推荐(0)
摘要:1.安装jdk 2.安装scala 参照jdk的安装 3.ssh 免密码登录 4.安装hadoop 以上四步请参照 centos7 安装hadoop2.7.6(分布式) 5.安装spark 1)官网下载对应版本 https://archive.apache.org/dist/spark/spark- 阅读全文
posted @ 2018-08-09 14:39 生心无住 阅读(837) 评论(0) 推荐(0)
摘要:最近接到一个需求,需要对spark的结果分目录输出,百度之后找到了解决方案,大多都是spark 按照key分目录输出, 但是在文件当中,会把key也输出出来,在这里以key作为目录是想建hive表时把 01,02当做分区的,结果文件中不需要保存key值。其实在mr中也有类似需求,我的输出只要key- 阅读全文
posted @ 2018-04-15 21:19 生心无住 阅读(2365) 评论(0) 推荐(0)