随笔分类 - hadoop
摘要:版本:zookeeper-3.4.5-cdh5.10.0.tar.gz 网址:http://archive-primary.cloudera.com/cdh5/cdh/5/ 1. 解压 2. 配置文件 $ vim /usr/local/zookeeper/conf/zoo.cfg 3. 在zooke
阅读全文
摘要:1.安装Java 上述命令默认安装位置/usr/lib/jvm/java-1.8.0-openjdk 设置环境变量: 测试: 2.创建unix用户账号 HDFS,MapReduce,YARN通常作为独立的用户运行,分别命名为hdfs,mapred,yarn,都属于同一组hadoop。 3.hadoo
阅读全文
摘要:WordCount.py 使用spark-submit执行命令 Hadoop Web界面
阅读全文
摘要:1.安装pip 因为centos7.0自带的python系统是2.7.5,并没有安装pip,需要先安装pip 2.配置启动项 3.jupyter 无法远程访问 其实这时候,local如果有browser的话,就可以输入访问了,但是没有,所以需要远程访问: http://ip:8888,发现访问不了
阅读全文
摘要:1. Scala的安装 注意点:版本匹配的问题, Spark 1.6.2 -- Scala2.10 Spark 2.0.0 -- Scala2.11 2. Spark的安装 输入pyspark 显示: 至此安装成功。 3.本地运行pyspark 4.在Hadoop YARN上运行pyspark 5.
阅读全文
摘要:hadoop fs -mkdir 创建HDFS目录 # hadoop fs -mkdir /data Hadoop fs -ls 列出HDFS目录 # hadoop fs -ls /data hadoop fs -copyFromLocal 复制本地文件到HDFS hadoop fs -put 使用
阅读全文
摘要:YARN架构: 1)ResourceManager:RM 整个集群同一时间提供服务的RM只有一个,负责集群资源的统一管理和调度。 处理客户端的请求:提交作业,杀死作业 2)NodeManager:NM 整个集群中有多个,负责自己本身节点资源管理和使用。 定时向RM汇报本节点的资源使用情况。 接收并处
阅读全文
摘要:分布式文件系统HDFS: 优点: 数据冗余,硬件容错 处理流式数据访问(一次写入多次读取) 适合存储大文件 可构建在廉价机器上 缺点: 低延迟的数据访问 不适合小文件存储 NameNode+ N个DataNode(DN和NN是部署在不同的节点上的) NameNode: 1) 负责客户端请求的响应 2
阅读全文
摘要:本质思想:分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果。(reduce) MapReduce运行流程 JobTracker:作业的管理者 将作业分解成一堆任务(MapTask和ReduceTask),分配给TaskTracker运行, 作业的监控,容错处理,在一定时间间隔内
阅读全文
摘要:伪分布式配置: core-site.xml hdfs-site.xml mapred-site.xml (可能需要重命名mapred-site.xml.template) yarn-site.xml 初始化 启动 查看 打开Hadoop Resource-Manager Web界面 http://l
阅读全文

浙公网安备 33010602011771号