文章分类 - hadoop
hadoop学习的记录
摘要:1、HDFS本身没有提供用户名、用户组的创建,在客户端调用hadoop 的文件操作命令时,hadoop 识别出执行命令所在进程的用户名和用户组,然后使用这个用户名和组来检查文件权限。 2、hadoop的文件权限同linux的用户权限管理机制相同,读写执行,分为 自己 、同一组、alluser 权限层,且有chmod 和 chown相应的操作 。 3、关于web界面中对于权限,web界面访问时候,访问的用户以及组在dfs.web.ugi中配置,such as :用户名,组名1,组名2 ,然后访问享有该用户的权限 。
阅读全文
摘要:hadoop中一个读取文件中某个片段(由其内部的start、length决定片段)的类,继承自RecordReader,可以作为InputFomat中 public RecordReader<K, V> getRecordReader(InputSplit split,JobConf job, Reporter reporter)方法的返回的结果,处理FileSplit 。可以读取FileSplit中的key、Value对,以便map可以使用 。源代码以及注释如下:/*** hadoop中一个读取文件中某个片段(由其内部的start、length决定片段)的类,* 继承自Recor
阅读全文
摘要:本文内容来源于其他网页,参考的网址(转载请注明出处,谢谢):http://blog.nosqlfan.com/html/1217.htmlhttp://hi.baidu.com/shirley_wheat/blog/item/ea89e76113ee30c98cb10d72.htmlhttp://blog.csdn.net/sheperd_shu/article/details/6437845http://hi.baidu.com/hpagent/blog/item/673f8b330d9c2bbd5fdf0e4a.html1.Hadoop’s SequenceFileSequenceFile
阅读全文
摘要:package org.apache.hadoop.fs;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.classification.InterfaceAudience;import org.apache.hadoop.classification.InterfaceStability;import org.apache.hadoop.fs.permission.FsPermission;import org.apache.hadoop
阅读全文
摘要:1、对于datanode可以在master中配置,然后在maste启动的时候,一并去启动这些节点 。对于死掉的节点,也可以通过以下命令启动 。重启挂掉的节点进入到 挂掉的机器bin/hadoop-daemon.sh start datanode //启动数据节点bin/hadoop-daemon.sh start tasktracker //启动任务管理器此时再在master上使用./hadoop dfsadmin -report 是就会发现这些节点已经启动起来 。2、对于新添加datanode的话:只需配置相应的主机IP,然后在在本机上启动datanode和tasktracker ,便可以将
阅读全文
摘要:环境以及配置:三台机器,两台作为datanode ,一台机器启动namenode 、JobTracker 。基本的WordCounter 程序,打包成jar包,将输入文件上传到HDFS上 ,然后命令:./hadoop jar /home/dev/hadoop/Counter.jar hadoopApp.WordCount /data/input/ /data/output/ 注意:后面的两个路径必须是HDFS上的路径,不能是本地路径 ,jar包为普通jar包且不需要上传到服务器 。
阅读全文
摘要:现象:namenode端的namenodelog一直报could only be replicated to 0 nodes, instead of 1 错误,表示没有一个可用的节点 。datanode端一直报错:Server at /10.0.0.21:54310 not available yet, Zzzzz...2011-03-03 11:33:10,047 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: /10.0.0.21:54310,一直尝试连接master但连接不上 。改正:在namenode中配置m
阅读全文
摘要:发生的场景:本机上启动一个namenode和一个datanode ,然后datanode无法启动 。错误:namespaceIDs不一致 。原因:每次namenode format会重新创建一个namenodeId,而tmp/dfs/data下包含了上次format下的id,namenode format清空了namenode下的数据,但是没有晴空datanode下的数据,导致启动时失败,所要做的就是每次fotmat前,清空tmp一下 的所有目录.解决,给出两种方法:Workaround 1: Start from scratchI can testify that the following
阅读全文
摘要:转自:Venus神庙原文:http://www.cnblogs.com/duguguiyu/archive/2009/02/28/1400278.html分布式计算(Map/Reduce)分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架。在Hadoop中,分布式文件系统,很大程度上,是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统,类似的定义推广到分布式计算上,我们可以将其视为增加了分布式支持的计算函数。 从计算的角度上看,Map/Reduce框架接受各种格式的键值对文件作为输入,读取计算后,最终生
阅读全文

浙公网安备 33010602011771号