随笔分类 - hadoop
hadoop学习的记录
摘要:原文转自博客:http://www.oratea.net/?p=799,添加一些修改 。DatanodeProtocol.java 路径:hadoop-0.19.2\src\hdfs\org\apache\hadoop\hdfs\server\protocol\DatanodeProtocol.javaDatanodeProtocol是DataNode与NameNode通信的信息接口,接口定义了DataNode向ameNode发起的全部操作。1 public static final long versionID = 19L;这个标识了协议的版本信息,对于0.19.2来说是19L。2 fina
阅读全文
摘要:http://www.kuqin.com/system-analysis/20111221/316517.html hadoop的分布式管理工具http://www.tbdata.org/archives/1470 淘宝关于hadoop的性能调优 当job指定了combiner的时候,我们都知道map介绍后会在map端根据combiner定义的函数将map结果进行合并。运行combiner函数的时机有可能会是merge完成之前,或者之后,这个时机可以由一个参数控制,即min.num.spill.for.combine(default 3),当job中设定了combiner,并且spill数最少
阅读全文
摘要:hadoop在实现datanode、namenode、client之间的通信时,实现了自己的一套rpc通信的协议,协议服务器端采用nio的方式来处理请求,支持局域网的rpc调用 。 协议的传输数据采用writeable数据,每次调用将具体函数参数(writeable),调用方法名称,调用参数类型信息传送过去,然后Server端接收到这些参数之后再根据该方法名称,调用参数类型信息得到相应的Method对象,然后使用参数调用 。 注释源代码见:http://files.cnblogs.com/serendipity/ipc.rar 实例代码: Client端测试代码:package com....
阅读全文
摘要:自己添加:dfs.datanode.du.reserved :表示在datanode对磁盘写时候,保留多少非dfs的磁盘空间,从而避免dfs将所在的磁盘写满 ,但在0.19.2中该参数存在bug 。I introduced "ipc.server.listen.queue.size" which defines how many calls per handler are allowed in the queue. The default is wtill 100. So there is no change for current users. 启动rpc服务时候每个ha
阅读全文
摘要:使用 -jar 以及 -conf命令时候,会把主机节点上相应的jar文件和conf文件夹拷贝给运行的job,因此不需要datanode上相应的jar文件和文件夹 。同样,当你使用默认的conf配置 和 hadoop中lib路径下jar包时,需要保持datanode上的一直且正确。
阅读全文
摘要:一般用ssh登陆的时候都需要输入用户名和密码,有时候为了方便不想输入密码怎么办? 以下内容转自鸟哥书: 1.假设被登陆的主机用户为root,需要登陆的client用户为test 2.<1>在客户端使用ssh-keygen -t rsa 产生一对密钥和公钥 <2>回车 <3>回车 <4>ll ~/.ssh 其中id_rsa为私钥id_rsa.pub为公钥 <5>把id_rsa文件放在client中的$HOME/.ssh/中 <6>把id_rsa.pub放在server中的根目录下面 <7>将公钥转存到author
阅读全文
摘要:FileSystem是一个文件系统的实例,这个文件系统可以是hdfs,也可以是本地的文件系统 。一 获得hdfs的文件系统 String uri = "hdfs://10.0.0.134:9000"; Configuration conf = new Configuration(); conf.set("fs.default.name", "hdfs://10.0.0.134:9000"); //该方法得到文件系统,其实用到的只是hdfs的url FileSystem fs = FileSystem.get(URI.create(ur
阅读全文

浙公网安备 33010602011771号