随笔分类 -  hadoop

摘要:一、 hbase的原理知识 1. hbase介绍 hbase是hadoop的一个重要成员,主要用于存储结构化数据,构建在hdfs之上的分布式存储系统,它主要通过横向扩展,通用不断增加廉价服务器增加计算和存储能力。 2. hbase的特点 1. 大:一个表可以有数十亿行,上百万列; 2. 无模式:每行 阅读全文
posted @ 2017-08-07 13:32 dreamOnly 阅读(275) 评论(0) 推荐(0)
摘要:一、 为什么javaBean要继承Writable和WritableComparable接口? 1. 如果一个javaBean想要作为MapReduce的key或者value,就一定要实现序列化,因为在Map到Reduce阶段的时候,只能是传输二进制数据,不可能将字符流直接进行RPC传输, 只要一个 阅读全文
posted @ 2017-08-04 17:07 dreamOnly 阅读(2068) 评论(0) 推荐(0)
摘要:一、MapReduce介绍 (最好以下面的两个示例来理解原理) 1. MapReduce的基本思想 Map-reduce的思想就是“分而治之” Map Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”执行 “ 简单的任务”有几个含义: 1 数据或计算规模相对于原任务要大大缩小; 2 阅读全文
posted @ 2017-08-02 10:29 dreamOnly 阅读(485) 评论(0) 推荐(0)
摘要:一、HDFS的相关基本概念 1.数据块 1、在HDFS中,文件诶切分成固定大小的数据块,默认大小为64MB(hadoop2.x以后是128M),也可以自己配置。 2、为何数据块如此大,因为数据传输时间超过寻到时间(高吞吐率)。 3、文件的存储方式,按大小被切分成若干个block,存储在不同的节点上, 阅读全文
posted @ 2017-07-30 10:39 dreamOnly 阅读(285) 评论(0) 推荐(0)
摘要:一、虚拟机环境搭建 虚拟机:VMWare12+ 操作系统:CentOS6.5 CentOS6.5安装 打开VMWare,将CentOS6.5的iso添加进去,一路下一步,但是在新建虚拟机的时候需要注意: 处理器最好是2个以上,具体按照自己的电脑能力分配 内存分配多一些,这个就看自己机器的情况了 网络 阅读全文
posted @ 2017-07-27 19:34 dreamOnly 阅读(485) 评论(2) 推荐(1)