05 2015 档案

摘要:本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。 3 使用Streaming编写Ma... 阅读全文
posted @ 2015-05-28 17:57 数据手艺人 阅读(9581) 评论(0) 推荐(3)
摘要:一、存入数据类型Hbase里面,rowkey是按照字典序进行排序。存储的value值,当用filter进行数据筛选的时候,所用的比较算法也是字典序的。1、当存储的value值是float类型的时候,录入数据可以录入,但是读取出来的数据会存在问题会出问题例如:存入数据的代码:p = new Put(B... 阅读全文
posted @ 2015-05-28 10:35 数据手艺人 阅读(10089) 评论(0) 推荐(0)
摘要:1、为何要BulkLoad 导入?传统的HTableOutputFormat 写 HBase 有什么问题?我们先看下 HBase 的写流程:通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量... 阅读全文
posted @ 2015-05-27 17:11 数据手艺人 阅读(1200) 评论(0) 推荐(0)
摘要:1、搭建环境 新建JAVA项目,添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包2、主要程序Java代码packagec... 阅读全文
posted @ 2015-05-27 16:47 数据手艺人 阅读(6596) 评论(1) 推荐(0)
摘要:RHadoop实践系列之二:RHadoop安装与使用RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处... 阅读全文
posted @ 2015-05-26 16:05 数据手艺人 阅读(562) 评论(0) 推荐(0)
摘要:RHadoop实践系列之一:Hadoop环境搭建RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大... 阅读全文
posted @ 2015-05-26 15:55 数据手艺人 阅读(474) 评论(0) 推荐(0)
摘要:Apache Hadoop项目的目前版本(2.0版)含有以下模块:Hadoop通用模块:支持其他Hadoop模块的通用工具集。Hadoop分布式文件系统(HDFS):支持对应用数据高吞吐量访问的分布式文件系统。Hadoop YARN:用于作业调度和集群资源管理的框架。Hadoop MapReduce... 阅读全文
posted @ 2015-05-26 15:26 数据手艺人 阅读(938) 评论(0) 推荐(0)
摘要:在Hadoop Eclipse开发环境搭建这篇文章中,第15.)中提到权限相关的异常,如下:15/01/30 10:08:17 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform..... 阅读全文
posted @ 2015-05-25 17:30 数据手艺人 阅读(620) 评论(0) 推荐(0)
摘要:1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz1.2 Windows开发简介 Java版本:jdk-6u31-windows-... 阅读全文
posted @ 2015-05-25 15:27 数据手艺人 阅读(478) 评论(0) 推荐(0)
摘要:转载请注明出处:http://www.cnblogs.com/zhengrunjian/p/4527269.html1作为输入当压缩文件做为mapreduce的输入时,mapreduce将自动通过扩展名找到相应的codec对其解压。如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip... 阅读全文
posted @ 2015-05-25 10:32 数据手艺人 阅读(2571) 评论(0) 推荐(0)
摘要:转载请注明出处:http://www.cnblogs.com/zhengrunjian/p/4527220.html所有源码在github上,https://github.com/lastsweetop/styhadoop1简介codec其实就是coder和decoder两个单词的词头组成的缩略词。... 阅读全文
posted @ 2015-05-25 10:14 数据手艺人 阅读(1003) 评论(0) 推荐(0)
摘要:文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。hadoop里支持很多种压缩格式,我们看一个表格:DEFLATE是同时使用了LZ77算法与哈夫曼编码(Huffman Cod... 阅读全文
posted @ 2015-05-25 09:58 数据手艺人 阅读(2560) 评论(0) 推荐(0)