Hadoop - 随笔分类 - liangxb

Hadoop+Hbas完全分布式安装部署

摘要：Hadoop安装部署基本步骤： 1、安装jdk，配置环境变量。 jdk可以去网上自行下载，环境变量如下：编辑 vim /etc/profile 文件，添加如下内容： export JAVA_HOME=/opt/java_environment/jdk1.7.0_80（填写自己的jdk安装路径） e 阅读全文

posted @ 2018-07-29 21:06 liangxb 阅读(881) 评论(0) 推荐(0)

Hive和Hbase的区别

摘要：1. 两者分别是什么？ Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它只能阅读全文

posted @ 2018-07-24 21:33 liangxb 阅读(243) 评论(0) 推荐(1)

Flume原理解析【转】

摘要：一、Flume简介 flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核阅读全文

posted @ 2018-07-19 23:02 liangxb 阅读(1560) 评论(0) 推荐(0)

Hive - ORC 文件存储格式【转】

摘要：一、ORC File文件结构 ORC的全称是(Optimized Row Columnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式，它的产生早在2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似，它并不是一个阅读全文

posted @ 2018-07-18 22:46 liangxb 阅读(865) 评论(0) 推荐(0)

大数据：Parquet文件存储格式【转】

摘要：一、Parquet的组成 Parquet仅仅是一种存储格式，它是语言、平台无关的，并且不需要和任何一种数据处理框架绑定，目前能够和Parquet适配的组件包括下面这些，可以看出基本上通常使用的查询引擎和计算框架都已适配，并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。查询引擎: 阅读全文

posted @ 2018-07-18 21:29 liangxb 阅读(1754) 评论(0) 推荐(0)

hadoop本地运行模式调试

摘要：一：简介最近学习hadoop本地运行模式，在运行期间遇到一些问题，记录下来备用；以运行hadoop下wordcount为例子。 hadoop程序是在集群运行还是在本地运行取决于下面两个参数的设置，第一个参数用来设置mr程序要在yarn集群中执行，第二个参数设置yarn集群的主节点地址。 hadoo 阅读全文

posted @ 2018-06-10 09:54 liangxb 阅读(4086) 评论(0) 推荐(0)

初识MapReduce

摘要：MapReduce是Google的一项重要技术，它首先是一个编程模型，用以进行大数据量的计算。对于大数据量的计算，通常采用的处理手法就是并行计算。但对许多开发者来说，自己完完全全实现一个并行计算程序难度太大，而MapReduce就是一种简化并行计算的编程模型，它使得那些没有多有多少并行计算经验的开发阅读全文

posted @ 2018-05-15 23:00 liangxb 阅读(439) 评论(0) 推荐(0)

Hadoop RPC机制的使用

摘要：一、RPC基础概念 1.1 RPC的基础概念 RPC，即Remote Procdure Call，中文名：远程过程调用；（1）它允许一台计算机程序远程调用另外一台计算机的子程序，而不用去关心底层的网络通信细节，对我们来说是透明的。因此，它经常用于分布式网络通信中。 RPC协议假定某些传输协议的存在阅读全文

posted @ 2018-05-13 21:54 liangxb 阅读(257) 评论(0) 推荐(0)

HDFS的工作流程

摘要：HDFS的工作机制概述 HDFS集群分为两大角色：NameNode、DataNode NameNode负责管理整个文件系统的元数据 DataNode 负责管理用户的文件数据块文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上每一个文件块可以有多个副本，并阅读全文

posted @ 2018-05-12 21:08 liangxb 阅读(737) 评论(0) 推荐(0)

hadoop集群部署

摘要：1) 安装jdk 下载jdk-6u21-linux-i586.bin 然后修改/etc/profile：保存，并执行source /etc/profile 2) 配置host Namenode的机器，需要配置集群中所有机器的ip 修改/etc/hosts 其他的datanode的/etc/host 阅读全文

posted @ 2017-12-21 22:27 liangxb 阅读(326) 评论(0) 推荐(0)

随笔分类 - Hadoop