随笔分类 -  Spark

Spark技术相关
摘要:近期也有开始研究使用spark streaming来实现流式处理。本文以流式计算word count为例,简单描述如何进行spark streaming编程。1. 依赖的jar包参考《分别用Eclipse和IDEA搭建Scala+Spark开发环境》一文,pom.xml中指定依赖库spark-str... 阅读全文
posted @ 2015-08-08 00:24 如玉暖阳 阅读(646) 评论(0) 推荐(0)
摘要:Spark集群处理能力不足需要扩容,如何在现有spark集群中新增新节点?本文以一个实例介绍如何给Spark集群新增一个节点。1. 集群环境现有Spark集群包括3台机器,用户名都是cdahdp,主目录/home/ap/cdahdp,配置是2C8G虚拟机,集群基于yarn架构。 Master:128... 阅读全文
posted @ 2015-08-02 13:22 如玉暖阳 阅读(6880) 评论(4) 推荐(0)
摘要:今天想停止spark集群,发现执行stop-all.sh的时候spark的相关进程都无法停止。提示: no org.apache.spark.deploy.master.Master to stop no org.apache.spark.deploy.worker.Worker to stop 上... 阅读全文
posted @ 2015-08-01 01:05 如玉暖阳 阅读(6115) 评论(0) 推荐(0)
摘要:开发机器上安装jdk1.7.0_60和scala2.10.4,配置好相关环境变量。网上资料很多,安装过程忽略。此外,Eclipse使用Luna4.4.1,IDEA使用14.0.2版本。1. Eclipse开发环境搭建1.1. 安装scala插件安装eclipse-scala-plugin插件,下载地... 阅读全文
posted @ 2015-07-29 21:30 如玉暖阳 阅读(8440) 评论(0) 推荐(0)
摘要:Hadoop的安装和配置可以参考我之前的文章:在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境。本篇介绍如何在Hadoop2.6.0基础上搭建spark1.4.0单机环境。1. 软件准备 scala-2.11.7.tgzspark-1.4.0-bin-hadoop2.6.tgz都可以从官网下... 阅读全文
posted @ 2015-07-29 00:25 如玉暖阳 阅读(1996) 评论(0) 推荐(0)