Hadoop+Hbas完全分布式安装部署
摘要:Hadoop安装部署基本步骤: 1、安装jdk,配置环境变量。 jdk可以去网上自行下载,环境变量如下: 编辑 vim /etc/profile 文件,添加如下内容: export JAVA_HOME=/opt/java_environment/jdk1.7.0_80(填写自己的jdk安装路径) e
阅读全文
posted @
2018-07-29 21:06
liangxb
阅读(881)
推荐(0)
Hive和Hbase的区别
摘要:1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能
阅读全文
posted @
2018-07-24 21:33
liangxb
阅读(243)
推荐(1)
Flume原理解析【转】
摘要:一、Flume简介 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。 但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核
阅读全文
posted @
2018-07-19 23:02
liangxb
阅读(1560)
推荐(0)
Hive - ORC 文件存储格式【转】
摘要:一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个
阅读全文
posted @
2018-07-18 22:46
liangxb
阅读(865)
推荐(0)
大数据:Parquet文件存储格式【转】
摘要:一、Parquet的组成 Parquet仅仅是一种存储格式,它是语言、平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎和计算框架都已适配,并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。 查询引擎:
阅读全文
posted @
2018-07-18 21:29
liangxb
阅读(1754)
推荐(0)
hadoop本地运行模式调试
摘要:一:简介 最近学习hadoop本地运行模式,在运行期间遇到一些问题,记录下来备用;以运行hadoop下wordcount为例子。 hadoop程序是在集群运行还是在本地运行取决于下面两个参数的设置,第一个参数用来设置mr程序要在yarn集群中执行,第二个参数设置yarn集群的主节点地址。 hadoo
阅读全文
posted @
2018-06-10 09:54
liangxb
阅读(4086)
推荐(0)
初识MapReduce
摘要:MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而MapReduce就是一种简化并行计算的编程模型,它使得那些没有多有多少并行计算经验的开发
阅读全文
posted @
2018-05-15 23:00
liangxb
阅读(439)
推荐(0)
Hadoop RPC机制的使用
摘要:一、RPC基础概念 1.1 RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用; (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。 RPC协议假定某些传输协议的存在
阅读全文
posted @
2018-05-13 21:54
liangxb
阅读(257)
推荐(0)
HDFS的工作流程
摘要:HDFS的工作机制 概述 HDFS集群分为两大角色:NameNode、DataNode NameNode负责管理整个文件系统的元数据 DataNode 负责管理用户的文件数据块 文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上 每一个文件块可以有多个副本,并
阅读全文
posted @
2018-05-12 21:08
liangxb
阅读(737)
推荐(0)
hadoop集群部署
摘要:1) 安装jdk 下载jdk-6u21-linux-i586.bin 然后修改/etc/profile: 保存,并执行source /etc/profile 2) 配置host Namenode的机器,需要配置集群中所有机器的ip 修改/etc/hosts 其他的datanode的/etc/host
阅读全文
posted @
2017-12-21 22:27
liangxb
阅读(326)
推荐(0)