随笔分类 -  hadoop学习

hadoop 分布式缓存
摘要:Hadoop 分布式缓存实现目的是在所有的MapReduce调用一个统一的配置文件,首先将缓存文件放置在HDFS中,然后程序在执行的过程中会可以通过设定将文件下载到本地具体设定如下: public static void main(String[] arge) throws IOException, 阅读全文
posted @ 2016-04-06 17:39 知识天地 阅读(801) 评论(0) 推荐(0) 编辑
HBase 常用Shell命令
摘要:两个月前使用过hbase,现在最基本的命令都淡忘了,留一个备查~进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可... 阅读全文
posted @ 2015-06-11 11:54 知识天地 阅读(370) 评论(0) 推荐(0) 编辑
Hadoop添加节点的方法
摘要:自己实际添加节点过程:1. 先在slave上配置好环境,包括ssh,jdk,相关config,lib,bin等的拷贝;2. 将新的datanode的host加到集群namenode及其他datanode中去;3. 将新的datanode的ip加到master的conf/slaves中;4. 重启cluster,在cluster中看到新的datanode节点;5. 运行bin/start-balancer.sh,这个会很耗时间备注:1. 如果不balance,那么cluster会把新的数据都存放在新的node上,这样会降低mr的工作效率;2. 也可调用bin/start-balancer.sh 阅读全文
posted @ 2013-06-07 20:48 知识天地 阅读(2946) 评论(0) 推荐(0) 编辑
hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out
摘要:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。 /etc/security/limits.confvi /etc/security/limits.conf加上:* soft nofile 102400* hard nofile 409600 $cd /etc/pam.d/ $sudo vi login 添加 session required /lib/security/pam_limits.so针对第一个问题我纠正下答案:这是reduce预处理阶段shuffle... 阅读全文
posted @ 2013-06-07 20:45 知识天地 阅读(2567) 评论(0) 推荐(0) 编辑
Apache Hadoop NextGen MapReduce (YARN)
摘要:MapReduce has undergone a complete overhaul in hadoop-0.23 and we now have, what we call, MapReduce 2.0 (MRv2) or YARN.The fundamental idea of MRv2 is to split up the two major functionalities of the JobTracker, resource management and job scheduling/monitoring, into separate daemons. The idea is to 阅读全文
posted @ 2013-06-07 20:32 知识天地 阅读(376) 评论(0) 推荐(0) 编辑
HDFS小文件问题及解决方案
摘要:1、 概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间(见参考资料[1][4][5])。这样namenode内存容量严重制约了集群的扩展。 其次,访问大量小文件速度远远小于访问几个大文件。HDFS最初是为流式访问大文件开发的,如果访问大量小文件,需要不断的从一个datanode 阅读全文
posted @ 2012-12-14 08:56 知识天地 阅读(659) 评论(0) 推荐(0) 编辑
学习一:hadoop 1.0.1集群安装
摘要:用vmware搭建三台Linux虚拟机,具体步骤如下:1、hadoop下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/core/2、下载java6软件包,分别在三台安装3、三台虚拟机,一台作为master,另外两台作为slave,分别配置/etc/hosts 172.16.130.136 masternode 172.16.130.137 slavenode1 172.16.130.138 slavenode24、在三台主机/etc/profile设置环境变量export JAVA_HOME=/usr/java/jdk1.6.0_13expor 阅读全文
posted @ 2012-11-02 17:12 知识天地 阅读(680) 评论(0) 推荐(0) 编辑
分布式设计学习资料
摘要:淘宝核心系统团队博客案例分析:基于消息的分布式架构分布式架构新成员:比Hadoop快三倍的Mapr诞生Hadoop分布式文件系统:架构和设计专注于分布式存储&计算技术及其应用 阅读全文
posted @ 2012-09-23 12:14 知识天地 阅读(283) 评论(0) 推荐(0) 编辑
Hadoop分布式文件系统:架构和设计
摘要:引言前提和设计目标硬件错误流式数据访问大规模数据集简单的一致性模型“移动计算比移动数据更划算”异构软硬件平台间的可移植性Namenode 和 Datanode文件系统的名字空间 (namespace)数据复制副本存放: 最最开始的一步副本选择安全模式文件系统元数据的持久化通讯协议健壮性磁盘数据错误,心跳检测和重新复制集群均衡数据完整性元数据磁盘错误快照数据组织数据块Staging流水线复制可访问性DFSShellDFSAdmin浏览器接口存储空间回收文件的删除和恢复减少副本系数参考资料引言Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上 阅读全文
posted @ 2012-09-23 00:51 知识天地 阅读(540) 评论(0) 推荐(0) 编辑
Hadoop Shell命令
摘要:Hadoop Shell命令FS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtesttexttouchzFS Shell调用文件系统(FS)Shell命令应使用bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,schem 阅读全文
posted @ 2012-02-12 18:31 知识天地 阅读(230) 评论(0) 推荐(0) 编辑
hadoop 系统学习网址
摘要:http://hadoop.apache.org 阅读全文
posted @ 2012-02-12 18:30 知识天地 阅读(357) 评论(0) 推荐(0) 编辑