1.6日第六节课笔记

搭建集成hadoop spark 集群环境，并开发第一个hadoop spark程序
Spark+Tachyon+HDFS
Tachyon是基于内存的分布式文件系统，可以屏蔽下层的不同的数据源
Spark和Tachyon都是伯克利大学开发
Tachyon 是JAVA写的

1.关于虚拟机与Linux
笔记本加2条8G金士顿内存
vmware
装5台终端，Ubuntukylin-14.04.2-desktop-amd64.iso
SecureCRT做连接终端(Ubuntu不用)
默认不是root登录，但是必须root登录
Ubuntu里安装SSH，JDK8 linux64位
配置环境变量，JAVA_HOME,JAR_HOME,CLASS_PATH,PATH
SSHkey文件配置一个每个复制过去
配置hostname

2.Hadoop集群的搭建和配置
hadoop.apache.org 2.6.0版本
解压
etc/hadoop 4个xml文件配置
（写hadoop程序的时候需要java）
~/.bashrc 配置
slaves配置主副
复制hadoop到其他终端
hdfs是套磁盘管理软件
启动hdfs,tahyun

3.Spark集群的搭建和配置
spark 1.6.0 bin hadoop
conf/spark-env.sh 配置一些环境变量及连接hadoop的配置
slavrs配置
~/.bashrc配置
复制spark到其他终端
had
./start-..? 启动
./start-history-server.sh启动
10000个并发线程跑，很快是因为Coarse Grained 粗粒度
粗粒度：程序启动的时候就分配好资源，计算的时候使用资源，坏处是，只要有一个任务未结束，所有任务资源都不释放。
细粒度：使用的时候分配资源，执行完释放资源。
yarn是使用粗粒度
mesos是即是粗粒度又有细粒度

sc.textFile("/library/wordcount/input/Data").flatMap(_.split(" ")).map(word => (word, 1)).reduceByKey(_+_).map(pair => (pair._2, pair._1)).sortByKey(false,1).map(pair => (pair._2, pair._1)).saveAsTextFile("/library/wordcount/output/dt_spark_clicked3")
4.讨论和作业
有个100页的指导文档

搭建环境，构建集群，

posted on 2016-01-06 23:32 阿文的大数据之路阅读(125) 评论(0) 收藏举报

刷新页面返回顶部

阿文的大数据之路

1.6日第六节课笔记

导航

公告