风-fmgao

Flume架构

摘要： Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统： Flume 介绍 Flume是由cloudera软件公司产出的高可用、高可靠、分布式的海量日志收集系统、聚合和传输的系统、于2009年被捐赠了apache软件基金会，为Hadoop相关组件之一。Flu 阅读全文

posted @ 2019-02-22 13:58 风-fmgao 阅读(561) 评论(0) 推荐(0)

Hive

摘要： Hive的基本概念： Hive 简介 hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门阅读全文

posted @ 2019-02-22 13:52 风-fmgao 阅读(310) 评论(0) 推荐(0)

Hadoop简介与分布式安装

摘要： Hadoop的基本概念和分布式安装： Hadoop 简介 Hadoop 是Apache Lucene创始人道格·卡丁(Doug Cutting)创建的,Lucene是一个应用广泛的文本搜索库,Hadoop起源于开源网络搜索引擎Apache Nutch,后者是Lucene项目的一部分. Apache 阅读全文

posted @ 2019-02-22 13:33 风-fmgao 阅读(242) 评论(0) 推荐(0)

Hadoop分布式文件系统HDFS

摘要： HDFS的探究： HDFS HDFS是 Hadoop Distribute File System的缩写，是谷歌GFS分布式文件系统的开源实现，Apache Hadoop的一个子项目，HDFS基于流数据访问模式的分布式文件系统，支持海量数据的存储，允许用户将百千台组成存储集群，HDFS运行在低成本的阅读全文

posted @ 2019-02-22 11:29 风-fmgao 阅读(1046) 评论(0) 推荐(0)

HDFS的操作SHELL和API

摘要： HDFS的shell操作和JavaAPI的使用： WEB WEB端口50090查看SecondaryNameNode信息。可以查看Hadoop的版本，NameNode的IP，Checkpoint等信息。 WEB端口50070可以查看HDFS的信息和目录结构 SHELL 查看创建文件夹新建文件查阅读全文

posted @ 2019-02-22 11:24 风-fmgao 阅读(504) 评论(0) 推荐(0)

HDFS高级功能

摘要： HDFS的六大高级特性：安全模式安全模式是HDFS所处的一种特殊状态，在这种状态下，文件系统只接受读数据请求，而不接受删除、修改等变更请求。在NameNode主节点启动时，HDFS首先进入安全模式，DataNode在启动的时候会向namenode汇报可用的block等状态，让NameNode得到阅读全文

posted @ 2019-02-22 11:16 风-fmgao 阅读(817) 评论(0) 推荐(0)

Hadoop的I/O操作

摘要： Hadoop的IO： Hadoop自带的一条原子操作作用域数据I/O操作,其中有一些技术比Hadoop更常用,如数据完整性保持和压缩在处理好几个TB级别的数据集时值得关注. 数据完整性 Hadoop用户不希望在存储和处理数据时丢失或损坏任何数据，但是当系统中需要处理数据量达到Hadoop处理极限时，阅读全文

posted @ 2019-02-22 11:02 风-fmgao 阅读(661) 评论(0) 推荐(0)

Hadoop的RPC工作原理

摘要： RPC远程过程调用： Hadoop的远程过程调用(Remote Procedure Call,RPC)是Hadoop中核心通信机制，RPC主要通过所有Hadoop的组件元数据交换，如MapReduce、Hadoop分布式文件系统(HDFS)和Hadoop的数据库(Hbase)。RPC是一种通过网络从阅读全文

posted @ 2019-02-22 10:56 风-fmgao 阅读(1282) 评论(0) 推荐(0)

Mapreduce入门和优化方案

摘要： MapReduce基本原理和高性能网络下优化： Mapreduce概述 Mapreduce式谷歌开源的一项重要技术,是一个编程模型,用来进行大数据量的计算,对于大数据量的计算通常采用的处理方式式并行计算,对于许多开发者来说,自己完全实现一个并行计算程序难度太大.而MapReduce就是一种简化并行计阅读全文

posted @ 2019-02-22 10:39 风-fmgao 阅读(1939) 评论(0) 推荐(0)

MapReduce的工作机制

摘要：《Hadoop权威指南》中的MapReduce工作机制和Shuffle：框架 Hadoop2.x引入了一种新的执行机制MapRedcue 2。这种新的机制建议在Yarn的系统上，目前用于执行的框架可以通过mapreduce.framework.name属性进行设置，值“local“表示本地作业运行阅读全文

posted @ 2019-02-22 10:38 风-fmgao 阅读(629) 评论(0) 推荐(0)

导航

公告