04 2012 档案
Hadoop学习笔记 1HDFS
摘要:1.1 HDFS 1)HDFS 同样有block的概念,不过要大得多,默认64M。同样,HDFS上的文件也被划分为块大小的多个分块chunk,作为独立的存储单元。 2)HDFS中小于一个块大小的文件不会占据一个块的存储空间。 那么为什么HDFS中的块定义那么大呢,主要是为了最小化寻址开销。如果块设置的足够大,定位这个块的时间就会明显小于磁盘文件传输的时间,有利于提高系统的工作效率。 但分块也不能太大,否则如果任务数比节点少的话,作业速度反而会降低。 对分布式文件系统中的块进行抽象有很多好处: 1)存储的文件大小不受限制,可以大于系统中单个磁盘的大小。 2)简化了存储子系统的... 阅读全文
posted @ 2012-04-27 16:16 缠中说禅 阅读(245) 评论(0) 推荐(0)
Hadoop分布式部署
摘要:和伪分布式比较像,主要记录几个需要注意的问题:1.etc/hosts的设置需要把相关集群的机器都添加进去for example :192.168.01 node0 node02.dfs.name.dir的配置这是最坑爹的一个,我是在创建好相应的目录以后去设置的value,结果在 hadoop namenode -format时总是失败。网上看到一些说删除tmp目录下的文件就可以解决,可我是在第一次就格式化失败,很无语啊。其目录应该不要手动创建,否则会在 hadoop namenode -format是失败。网上看到解释是:Hadoop这样做的目的是防止错误地将已存在的集群格式化了同样的道理,重 阅读全文
posted @ 2012-04-25 09:37 缠中说禅 阅读(261) 评论(0) 推荐(0)
hadoop伪分布式部署
摘要:Hadoop 为0.20.2版本,jdk1.6.0_13 1. ssh无密码验证登陆localhost 保证Linux系统的ssh服务已经启动,并保证能够通过无密码验证登陆本机Linux系统。如果不能保证,可以按照如下的步骤去做: 1)启动命令行窗口,执行命令行: $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 2)ssh登陆localhost,执行命令行: $ ssh localhost 第一次登录,会提示你无法建立到127.0 阅读全文
posted @ 2012-04-23 16:51 缠中说禅 阅读(1714) 评论(0) 推荐(0)