1.6日第六节课笔记
搭建集成hadoop spark 集群环境,并开发第一个hadoop spark程序
Spark+Tachyon+HDFS
Tachyon是基于内存的分布式文件系统,可以屏蔽下层的不同的数据源
Spark和Tachyon都是伯克利大学开发
Tachyon 是JAVA写的
1.关于虚拟机与Linux
笔记本加2条8G金士顿内存
vmware
装5台终端,Ubuntukylin-14.04.2-desktop-amd64.iso
SecureCRT做连接终端(Ubuntu不用)
默认不是root登录,但是必须root登录
Ubuntu里安装SSH,JDK8 linux64位
配置环境变量,JAVA_HOME,JAR_HOME,CLASS_PATH,PATH
SSHkey文件配置一个 每个复制过去
配置hostname
2.Hadoop集群的搭建和配置
hadoop.apache.org 2.6.0版本
解压
etc/hadoop 4个xml文件配置
(写hadoop程序的时候需要java)
~/.bashrc 配置
slaves配置主副
复制hadoop到其他终端
hdfs是套磁盘管理软件
启动hdfs,tahyun
3.Spark集群的搭建和配置
spark 1.6.0 bin hadoop
conf/spark-env.sh 配置一些环境变量及连接hadoop的配置
slavrs配置
~/.bashrc配置
复制spark到其他终端
had
./start-..? 启动
./start-history-server.sh启动
10000个并发线程跑,很快是因为Coarse Grained 粗粒度
粗粒度:程序启动的时候就分配好资源,计算的时候使用资源,坏处是,只要有一个任务未结束,所有任务资源都不释放。
细粒度:使用的时候分配资源,执行完释放资源。
yarn是使用粗粒度
mesos是即是粗粒度又有细粒度
sc.textFile("/library/wordcount/input/Data").flatMap(_.split(" ")).map(word => (word, 1)).reduceByKey(_+_).map(pair => (pair._2, pair._1)).sortByKey(false,1).map(pair => (pair._2, pair._1)).saveAsTextFile("/library/wordcount/output/dt_spark_clicked3")
4.讨论和作业
有个100页的指导文档
搭建环境,构建集群,
浙公网安备 33010602011771号