文章分类 -  hadoop

摘要:用hadoop dfsadmin -report查看,显示Configured Capacity: 0 (0 KB)Present Capacity: 0 (0 KB)DFS Remaining: 0 (0 KB)DFS Used: 0 (0 KB)DFS Used%: �%Under replic 阅读全文
posted @ 2016-02-18 20:31 Q_Quan 阅读(1691) 评论(0) 推荐(0)
摘要:机器准备 笔者有三台机器,左侧栏为ip,右侧为hostname,三台机器都有一个名为spark的用户。通过ping验证三台是可以通信的。 ? 1 2 3 192.168.248.150 spark-master 192.168.248.153 ubuntu-worker 192.168.248.15 阅读全文
posted @ 2016-02-02 16:08 Q_Quan 阅读(878) 评论(0) 推荐(0)
摘要:关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Clo... 阅读全文
posted @ 2016-01-25 08:51 Q_Quan 阅读(158) 评论(0) 推荐(1)
摘要:1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改... 阅读全文
posted @ 2015-12-08 14:32 Q_Quan 阅读(1112) 评论(0) 推荐(0)
摘要:假设在你的hdfs集群上有一个/user/hadoop/output目录里面有作业执行的结果(多个文件组成)part-000000,part-000001,part-000002然后你想把所有的文件合拢来一起看 可以使用命令:hadoop fs -getmerge /user/hadoop/outp... 阅读全文
posted @ 2015-12-04 10:11 Q_Quan 阅读(2363) 评论(0) 推荐(0)
摘要:任何文件系统的一个重要特性都是提供其目录结构浏览和检索它所存文件和目录相关信息的功能。FileStatus对象封装了文件系统中文件和目录的元数据,包括文件的长度、块大小、备份数、修改时间、所有者以及权限等信息。 FileStatus对象由FileSystem的getFileStatus()方法... 阅读全文
posted @ 2015-11-25 17:15 Q_Quan 阅读(689) 评论(0) 推荐(0)
摘要:String newStr = new String(oldStr.getBytes(), "UTF-8"); java中的String类是按照unicode进行编码的,当使用String(byte[] bytes, String encoding)构造字符串时,encoding所指的是bytes中... 阅读全文
posted @ 2015-11-25 14:15 Q_Quan 阅读(1659) 评论(0) 推荐(0)
摘要:原文地址:http://blog.csdn.net/llwan/article/details/7567906String s = "fs123fdsa";//String变量 byte b[] = s.getBytes();//String转换为byte[] String t = new Stri... 阅读全文
posted @ 2015-11-25 13:40 Q_Quan 阅读(136) 评论(0) 推荐(0)
摘要:问题提出:众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:(引用)如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我... 阅读全文
posted @ 2015-11-25 10:15 Q_Quan 阅读(1296) 评论(0) 推荐(0)
摘要:我们的输入文件 hello0, 内容如下:xiaowang 28 shanghai@_@zhangsan 38 beijing@_@someone 100 unknown逻辑上有3条记录, 它们以@_@分隔.我们看看数据是如何被map读取的...1. 默认配置/* New API */ /... 阅读全文
posted @ 2015-11-18 13:08 Q_Quan 阅读(1225) 评论(0) 推荐(0)
摘要:一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、最近写MR的代码,总在想统计一些错误的数据出现的次数,发现如果都写在reduce的输出里太难看了,所以想找办法专门输出一些统计数字。2、翻看《hadoop权威指南》第8章第1节的时候发现能够自定义计数器,但都是基于0.19版本写... 阅读全文
posted @ 2015-11-16 15:21 Q_Quan 阅读(152) 评论(0) 推荐(0)
摘要:问题导读:很多同学都想看到调试信息,1.如何调试map?2.通过什么设置可以调试reduce?Hadoop调试是比较麻烦的事情,考虑到只能通过reduce输出数据,我们可以把调试信息输出到reduce中,然后固定到某个文件中。我们可以把所有的调试数据都是用key=“Debug”,调试信息作为valu... 阅读全文
posted @ 2015-11-13 16:59 Q_Quan 阅读(636) 评论(0) 推荐(0)
摘要:This error comes when your hadoop system is running lower Java version than the one used to compile your MapReduce code.Check java versions of your ha... 阅读全文
posted @ 2015-11-13 09:34 Q_Quan 阅读(183) 评论(0) 推荐(0)
摘要:有时候需要在Map类中的map函数中获取当前split所读取的文件名。在旧版mapred下面实现方法如下:// 获得输入文件的路径名String path=((FileSplit)reporter.getInputSplit()).getPath().toString();//使用Reporter ... 阅读全文
posted @ 2015-11-03 11:21 Q_Quan 阅读(2114) 评论(0) 推荐(0)
摘要:hadoop FileInputFormat.addInputPath无法加入job类 2014-10-18 10:14 银狐丶Summit | 浏览 299 次 云计算 eclipse提示"The method addInputPath(JobConf, Path) in the type Fi... 阅读全文
posted @ 2015-11-02 10:38 Q_Quan 阅读(454) 评论(0) 推荐(0)
摘要:今天,偶然发现Hadoop主页已经更新了文档,已经有了对于r0.21.0版本的最新文档,大家可以参考:http://hadoop.apache.org/mapreduce/docs/r0.21.0/hadoop的文档还是非常详尽值得细细品味的,本文留在这里,供大家了解新旧版本之间的差别。------... 阅读全文
posted @ 2015-10-30 15:28 Q_Quan 阅读(175) 评论(0) 推荐(0)
摘要:实际项目中遇到这样一个场景,需要运行一个MapReduce统计一些数据中的最大最小平均值等特性,将结果存入到HBase中。存结果的同时还要 记录这次分析任务的编号,即所有的Reduce产生的结果中都要包含这个任务编号这个字段。当然我们可以把这个任务编号放到输入文件中的每一行中,作为输 入数据的一部分... 阅读全文
posted @ 2015-10-30 13:48 Q_Quan 阅读(1145) 评论(0) 推荐(0)
摘要:在编写MapReduce程序时,经常会遇到这样的问题,全局变量如何保存?如何让每个处理都能获取保存的这些全局变量?使用全局变量是不可避免的,但是 在MapRdeuce中直接使用代码级别的全局变量是不现实的。主要是因为继承Mapper基类的Map阶段类的运行和继承Reducer基类的 Reduce阶段... 阅读全文
posted @ 2015-10-30 13:43 Q_Quan 阅读(2760) 评论(0) 推荐(0)
摘要:引言何 为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆) 的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新 ... 阅读全文
posted @ 2015-10-29 20:58 Q_Quan 阅读(231) 评论(0) 推荐(0)
摘要:前面介绍一些怎样用户类制定自己的类,来达到减少中间数据:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成,需要多次mapreduce才能完成... 阅读全文
posted @ 2015-10-29 20:57 Q_Quan 阅读(144) 评论(0) 推荐(0)