摘要: 1、为何要BulkLoad 导入?传统的HTableOutputFormat 写 HBase 有什么问题?我们先看下 HBase 的写流程:通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量... 阅读全文
posted @ 2015-05-27 17:11 数据手艺人 阅读(1192) 评论(0) 推荐(0)
摘要: 1、搭建环境 新建JAVA项目,添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包2、主要程序Java代码packagec... 阅读全文
posted @ 2015-05-27 16:47 数据手艺人 阅读(6594) 评论(1) 推荐(0)
摘要: RHadoop实践系列之二:RHadoop安装与使用RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处... 阅读全文
posted @ 2015-05-26 16:05 数据手艺人 阅读(559) 评论(0) 推荐(0)
摘要: RHadoop实践系列之一:Hadoop环境搭建RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大... 阅读全文
posted @ 2015-05-26 15:55 数据手艺人 阅读(471) 评论(0) 推荐(0)
摘要: Apache Hadoop项目的目前版本(2.0版)含有以下模块:Hadoop通用模块:支持其他Hadoop模块的通用工具集。Hadoop分布式文件系统(HDFS):支持对应用数据高吞吐量访问的分布式文件系统。Hadoop YARN:用于作业调度和集群资源管理的框架。Hadoop MapReduce... 阅读全文
posted @ 2015-05-26 15:26 数据手艺人 阅读(936) 评论(0) 推荐(0)
摘要: 在Hadoop Eclipse开发环境搭建这篇文章中,第15.)中提到权限相关的异常,如下:15/01/30 10:08:17 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform..... 阅读全文
posted @ 2015-05-25 17:30 数据手艺人 阅读(616) 评论(0) 推荐(0)
摘要: 1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz1.2 Windows开发简介 Java版本:jdk-6u31-windows-... 阅读全文
posted @ 2015-05-25 15:27 数据手艺人 阅读(472) 评论(0) 推荐(0)
摘要: 转载请注明出处:http://www.cnblogs.com/zhengrunjian/p/4527269.html1作为输入当压缩文件做为mapreduce的输入时,mapreduce将自动通过扩展名找到相应的codec对其解压。如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip... 阅读全文
posted @ 2015-05-25 10:32 数据手艺人 阅读(2569) 评论(0) 推荐(0)
摘要: 转载请注明出处:http://www.cnblogs.com/zhengrunjian/p/4527220.html所有源码在github上,https://github.com/lastsweetop/styhadoop1简介codec其实就是coder和decoder两个单词的词头组成的缩略词。... 阅读全文
posted @ 2015-05-25 10:14 数据手艺人 阅读(996) 评论(0) 推荐(0)
摘要: 文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。hadoop里支持很多种压缩格式,我们看一个表格:DEFLATE是同时使用了LZ77算法与哈夫曼编码(Huffman Cod... 阅读全文
posted @ 2015-05-25 09:58 数据手艺人 阅读(2551) 评论(0) 推荐(0)
摘要: VMware网络配置详解一:三种网络模式简介安装好虚拟机以后,在网络连接里面可以看到多了两块网卡:其 中VMnet1是虚拟机Host-only模式的网络接口,VMnet8是NAT模式的网络接口,这些后面会详细介绍选择虚拟机网络模 式方法如下,单击Edit virtual machine settin... 阅读全文
posted @ 2014-03-13 11:32 数据手艺人 阅读(196) 评论(0) 推荐(0)
摘要: 这个实验主要思想是在创建数据库表的时候,通过增加一个额外的字段,也就是时间戳字段,例如在同步表 tt1 和表 tt2 的时候,通过检查那个表是最新更新的,那个表就作为新表,而另外的表最为旧表被新表中的数据进行更新。实验数据如下:mysql database 5.1test.tt1( id int primary key , name varchar(50) );mysql.tt2( id int primary key, name varchar(50) );快照表,可以将其存放在test数据库中,同样可以为了简便,可以将其创建为temporary 表类型。数据如图 kettle-1kettl 阅读全文
posted @ 2014-03-12 10:48 数据手艺人 阅读(4824) 评论(1) 推荐(0)
摘要: 在使用Kettle进行数据同步的时候, 共有1.使用时间戳进行数据增量更新2.使用数据库日志进行数据增量更新3.使用触发器+快照表 进行数据增量更新今天要介绍的是第3中方法。实验的思路是这样的,在进行数据同步的时候,源数据表为A表, A表要对 目标表(target table) B 表和C表进行数据的同步更新。即A表中的对应字段发生变化之后,会通过触发器将对应变化的字段在A表中的主键值写入到一个临时表temp中(该表作为快照表使用)。快照表中只有两个字段,一个是temp_id,是快照表的主键,另一个是 A_id,记录的是在A表中发生变化的字段对应的主键的值。temp( temp_id int 阅读全文
posted @ 2014-03-12 10:46 数据手艺人 阅读(1657) 评论(0) 推荐(1)
摘要: Axure RP Pro 5 Axure RP 能帮助网站需求设计者,快捷而简便的创建 基于目录组织的原型文档、功能说明、交互界面以及带注释的wireframe网页,并可自动生成用于演示的网页文件和word文档,以提供演示与开发。 Axure RP 的特点是:快速创建带注释的wireframe文件,并可根据所设置的时间周期,软件自动保存文档,确保文件安全。在不写任何一条html与javascrīpt语句的情况下,通过创建的文档以及相关条件和注释,一键生成html prototype演示。根据设计稿,一键生成一致而专业的word版本的原型设计文档。 StarUML 可绘制9款U... 阅读全文
posted @ 2012-12-08 22:10 数据手艺人 阅读(574) 评论(0) 推荐(0)
摘要: IndexOf、lastIndexOf、substring这三种截取字符串的使用总结如下: String.IndexOf String.IndexOf 方法 (Char, Int32, Int32)报告指定字符在此实例中的第一个匹配项的索引。搜索从指定字符位置开始,并检查指定数量的字符位置。String.IndexOf(value, startIndex, count)参数value:要查找的 Unicode 字符。 startIndex:搜索起始位置。 count:要检查的字符位置数。返回值(Int32):如果找到该字符,则为 value 的索引位置;否则如果未找到,则为 -1。 ... 阅读全文
posted @ 2012-12-01 16:50 数据手艺人 阅读(1149) 评论(0) 推荐(0)
摘要: 第1章 JSP概述例子1example1_1.jsp<%@ page contentType="text/html;charset=GB2312"%><HTML><BODY BGCOLOR=yellow><FONT Size=3><P>这是一个简单的JSP页面 <% int i, sum=0; for(i=1;i<=100;i++) { sum=sum+i; } %><P> 1到100的连续和是:<%=sum %></FONT></BODY>< 阅读全文
posted @ 2012-09-24 19:53 数据手艺人 阅读(770) 评论(0) 推荐(0)