代码改变世界

Flume -- 开源分布式日志收集系统

2015-01-14 21:37 by hduhans, 3851 阅读, 0 推荐, 收藏, 编辑
摘要:Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称,泛指文件、操作记录等许多数据。一、Flume基础知识1、数据流模型 Flume的核心是把数据从数据源收集过来,再送到目的地。为了保证输送一... 阅读全文

Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具

2015-01-09 10:18 by hduhans, 1773 阅读, 0 推荐, 收藏, 编辑
摘要:Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS、Hive、HBase)与传统关系数据库(MySql、Oracle等)间进行数据传递工作。Sqoop最早是作为Hadoop的一个第三方模块存在,后来被独立成为了一个Apache项目。除了关系数据库外,对于某些NoSQL数据库,S... 阅读全文

Hive -- 基于Hadoop的数据仓库分析工具

2014-12-20 12:25 by hduhans, 2659 阅读, 0 推荐, 收藏, 编辑
摘要:Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。在本质上,Hive与Pig一样,都是将相应的查询语句转换为MapReduce程序,简... 阅读全文

HBase -- 基于HDFS的开源分布式NoSQL数据库

2014-11-28 14:42 by hduhans, 1771 阅读, 0 推荐, 收藏, 编辑
摘要:HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,我们可以利用HBase技术在廉价的PC上搭建起大规模结构化存储集群。同Google的Bigtable基于GFS(Google FileSystem)所提供分布式数据存储服务一样,HBase基于HDFS 阅读全文

ZooKeeper -- 分布式开源协调服务

2014-11-23 17:47 by hduhans, 1059 阅读, 0 推荐, 收藏, 编辑
摘要:ZooKeeper是一个为分布式应用所设计的开源协调服务,适用于大型的分布式系统,可以提供统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等服务。ZooKeeper支持Java和C两种编程语言的接口,可以很方便地实现一致性、组管理、leader选举和某些协议。 一、ZooKeeper简介 阅读全文

Hadoop学习(4)-- MapReduce

2014-10-31 09:38 by hduhans, 1255 阅读, 1 推荐, 收藏, 编辑
摘要:MapReduce是一种用于大规模数据集的并行计算编程模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。其主要思想Map(映射)和Reduce(规约)都是从函数是编程语言中借鉴而来的,它可以使程序员在不懂分布式底层的情况下轻松的将自己的程序运行在分布式系统上,极大地降低了分布式... 阅读全文

Hadoop学习(3)-- 安装1.x版本

2014-10-10 18:08 by hduhans, 579 阅读, 0 推荐, 收藏, 编辑
摘要:Hadoop有三种安装模式,分别为单机模式、伪分布式模式和完全分布式模式(集群模式)。本文安装版本是hadoop-1.1.2,hadoop-2.x版本安装请参考:http://www.cnblogs.com/hanganglin/articles/4254931.html。一、单机模式 单机模... 阅读全文

Hadoop学习(2)-- HDFS

2014-10-08 09:51 by hduhans, 952 阅读, 0 推荐, 收藏, 编辑
摘要:随着信息技术的高度发展,数据量越来越多,当一个操作系统管辖范围存储不下时,只能将数据分配到更多的磁盘中存储,但是数据分散在多台磁盘上非常不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,因此诞生了分布式文件系统。HDFS(Hadoop Distribute File System)是一种... 阅读全文

Hadoop学习(1)-- 入门介绍

2014-09-12 17:00 by hduhans, 570 阅读, 0 推荐, 收藏, 编辑
摘要:Hadoop是Apache基金会开发的一个分布式系统基础架构,是时下最流行的分布式系统架构之一。用户可以在不了解分布式底层的情况下,在Hadoop上快速进行分布式应用的开发,并利用集群的计算和存储能力,完成海量数据的处理。 一、Hadoop特点 1、扩容能力(Scalable):能可靠地存储和处理千 阅读全文

设计模式之 -- 单例模式(Singleton)

2014-04-22 20:16 by hduhans, 385 阅读, 0 推荐, 收藏, 编辑
摘要:单例模式是一种常用的软件设计模式,通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问。 使用说明 1、使用场景 在某些系统中某些对象最多只能存在一个,例如Windows中只能打开一个任务管理器,一个系统只能有一个计时工具或序号生成器,此时,建议使用单例模式。 2、要点 1) 单例模式 阅读全文