摘要:1 系统环境 Ubuntu 15.10, Java 1.7, Hadoop 2.6.0 HA, Spark-1.4.0 三台机器 spark-1423-0001: Master, Worker spark-1423-0002: Master, Worker spark-1423-0003: Work
阅读全文
随笔分类 - Spark
摘要:http://mt.sohu.com/20150604/n414449770.shtmlhttp://my.oschina.net/mkh/blog/330386http://itindex.net/detail/51632-spark-%E7%BB%8F%E9%AA%8Chttp://itinde...
阅读全文
摘要:机器环境 Ubuntu 14.10 64位 || OpenJDK-7 || Scala-2.10.4 机群概况 Hadoop-2.6.0 || HBase-1.0.0 || Spark-1.2.0 || Zookeeper-3.4.6 || hue-3.8.1 Hue简介(简单介绍): ue是一个开
阅读全文
摘要:我的Spark机群是部署在Yarn上的,因为之前Yarn的部署只是简单的完全分布式,但是后来升级到HA模式,一个主NN,一个备NN,那么Spark HistoryServer的配置也需要相应的做修改,因为不做修改会报错Exception in thread "main" java.lang.refl...
阅读全文
摘要:由于Licene的限制,没有放到默认的build里面,所以在官方网站下载的二进制文件中并不包含Gangla模块,如果需要使用,需要自己编译。在使用Maven编译Spark的时候,我们可以加上-Pspark-ganglia-lgpl选项来将Ganglia相关的类打包进spark-assembl...
阅读全文
摘要:关于 Ganglia 软件,Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统,如集群和网格。它是基于分层设计,它使用广泛的技术,如XML数据代表,便携数据传输,RRDtool用于数据存储和可视化。它利用精心设计的数据结构和算法实现每节点间并发非常低的。 它已移植到广泛的操作...
阅读全文
摘要:1 环境准备 1.1 下载IDEA,可在官网下载 1.2 IDEA与Eclipse有点不同,IDEA中的New Projects相当于Eclipse中的workspace,New Module才是新建工程2 建立Spark程序 2.1 首先新建项目,New Projects,名字随便取:Cre...
阅读全文
摘要:1 服务器分布服务器说明192.168.1.100NameNode192.168.1.101DataNode192.168.1.102DataNode2 软件环境 2.1 安装JDK,添加环境变量 2.2 安装Scala,添加环境变量 2.3 SSH免密码登陆,A登陆A,A登陆B,可参考htt...
阅读全文
摘要:Spark 是一种与 Hadoop 相似的开源集群计算环境,不过最近非常火.下面介绍安装步骤. 1 安装scala 1.1 我选用的是2.11.4,下载地址http://www.scala-lang.org/download/ 1.2 解压到文件夹 1.3 设置环境变量 1.4 检查是否安装成功 2
阅读全文

浙公网安备 33010602011771号