摘要:
Flume概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 Flume主要由3个重要的组件购成: Source:完 阅读全文
posted @ 2017-11-03 16:59
初见微凉i
阅读(255)
评论(0)
推荐(0)
摘要:
flume架构图 单节点flume配置 flume-1.4.0 启动flume -n表示配置文件中agent的名字 [java] view plain copy agent.sources = r1 agent.sinks = s1 agent.channels = c1 agent.sources 阅读全文
posted @ 2017-11-03 16:56
初见微凉i
阅读(2638)
评论(0)
推荐(0)
摘要:
一、Flume介绍 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 设计目标: (1) 可靠性 当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume 阅读全文
posted @ 2017-11-03 16:20
初见微凉i
阅读(390)
评论(0)
推荐(0)
摘要:
Agent 使用JVM 运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。 Client 生产数据,运行在一个独立的线程。 Source 从Client收集数据,传递给Channel。 Sink 从Channel收集数据,运行在一个独立线程。 阅读全文
posted @ 2017-11-03 16:02
初见微凉i
阅读(303)
评论(0)
推荐(0)
摘要:
在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。 阅读全文
posted @ 2017-11-03 15:50
初见微凉i
阅读(283)
评论(0)
推荐(0)
摘要:
一、为何要学习Hadoop? 这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据,如果求助于昂贵的专用主机甚至超级计 阅读全文
posted @ 2017-11-03 11:43
初见微凉i
阅读(127)
评论(0)
推荐(0)
摘要:
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列《Hadoop学习笔记系列》。其实,早在2014年Hadoop2.x版本就已经开始流行了起来,并且已经成为了现在的主流。当然, 阅读全文
posted @ 2017-11-03 11:42
初见微凉i
阅读(199)
评论(0)
推荐(0)
摘要:
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例(三)统计分 阅读全文
posted @ 2017-11-03 11:41
初见微凉i
阅读(327)
评论(0)
推荐(0)
摘要:
Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更: (1)HDFS的NameNode可以以集群的方式布署,增强了NameNodes的水平扩展能力和高可用性,分别是:HDFS Fede 阅读全文
posted @ 2017-11-03 11:41
初见微凉i
阅读(236)
评论(0)
推荐(0)
摘要:
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/446434 阅读全文
posted @ 2017-11-03 11:40
初见微凉i
阅读(429)
评论(0)
推荐(0)
摘要:
START:Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称,泛指文件、操作记录等许多数据。 一、Flume基础理论 1.1 常见的分布式日志收集系统 Scribe是facebook开源的日志收 阅读全文
posted @ 2017-11-03 11:39
初见微凉i
阅读(265)
评论(0)
推荐(0)
摘要:
网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/446434 阅读全文
posted @ 2017-11-03 11:39
初见微凉i
阅读(441)
评论(0)
推荐(0)
摘要:
一、Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一 阅读全文
posted @ 2017-11-03 11:38
初见微凉i
阅读(229)
评论(0)
推荐(0)
摘要:
一、Hive:一个牛逼的数据仓库 1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称 阅读全文
posted @ 2017-11-03 11:37
初见微凉i
阅读(377)
评论(0)
推荐(0)
摘要:
一、HBase的安装配置 1.1 伪分布模式安装 伪分布模式安装即在一台计算机上部署HBase的各个角色,HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。 首先,准备好HBase的安装包,我这里使用的是HBase-0.94.7的版本,已经上传至百度网盘之中(U 阅读全文
posted @ 2017-11-03 11:36
初见微凉i
阅读(249)
评论(0)
推荐(0)
摘要:
一、关于Pig:别以为猪不能干活 1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编 阅读全文
posted @ 2017-11-03 11:36
初见微凉i
阅读(369)
评论(0)
推荐(0)
摘要:
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是松散型数据。 一、HBase:BigTable的开源实现 1.1 HBase出现的背景 (1)随着数 阅读全文
posted @ 2017-11-03 11:35
初见微凉i
阅读(272)
评论(0)
推荐(0)
摘要:
从字面上来看,ZooKeeper表示动物园管理员,这是一个十分奇妙的名字,我们又想起了Hadoop生态系统中,许多项目的Logo都采用了动物,比如Hadoop采用了大象的形象,所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作的。 一、ZooKeeper基础介绍 1.1 动物园也要保障 阅读全文
posted @ 2017-11-03 11:34
初见微凉i
阅读(327)
评论(0)
推荐(0)
摘要:
开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群。现在,我们来了解一下在一个Hadoop分布式集群中,如何动态(不关机且正在运行的情况下)地添加一个Hadoop节点与下架一个Hadoop节点。 一、实验环境结构 本次试验,我们构建的集群是一个主节点,三个从节点的结构 阅读全文
posted @ 2017-11-03 11:33
初见微凉i
阅读(248)
评论(0)
推荐(0)
摘要:
一、MapReduce中有哪些常见算法 (1)经典之王:单词计数 这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 阅读全文
posted @ 2017-11-03 11:32
初见微凉i
阅读(780)
评论(0)
推荐(0)
摘要:
一、写在之前的 1.1 回顾Map阶段四大步骤 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组。 1.2 实验场景数据文件 在一些特定的数据文件中 阅读全文
posted @ 2017-11-03 11:24
初见微凉i
阅读(447)
评论(0)
推荐(0)
摘要:
一、回顾Reduce阶段三大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示: 其中,Step2.1就是一个Shuffle操作,它针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的re 阅读全文
posted @ 2017-11-03 11:23
初见微凉i
阅读(188)
评论(0)
推荐(0)
摘要:
一、初步探索Partitioner 1.1 再次回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: 其中,step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对<key, v 阅读全文
posted @ 2017-11-03 11:22
初见微凉i
阅读(668)
评论(0)
推荐(0)
摘要:
一、Combiner的出现背景 1.1 回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: 其中,step1.5是一个可选步骤,它就是我们今天需要了解的 Map规约 阶段。现在,我们再来看看前一篇博文《 阅读全文
posted @ 2017-11-03 11:21
初见微凉i
阅读(277)
评论(0)
推荐(0)
摘要:
一、Hadoop中的计数器 计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。 例如,我们有一个文件,其中包含如下内容: 它被WordCount程序执行后显示如下日志: 在上图所示 阅读全文
posted @ 2017-11-03 11:20
初见微凉i
阅读(308)
评论(0)
推荐(0)
摘要:
开篇:Hadoop是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有一些缺点,如编码、调试Hadoop程序的难度较大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的开发者为了降低Hadoop的难度,开发出了Hadoop Eclips 阅读全文
posted @ 2017-11-03 10:00
初见微凉i
阅读(432)
评论(0)
推荐(0)
摘要:
一、测试数据:手机上网日志 1.1 关于这个日志 假设我们如下一个日志文件,这个文件的内容是来自某个电信运营商的手机上网日志,文件的内容已经经过了优化,格式比较规整,便于学习研究。 该文件的内容如下(这里我只截取了三行): 1363157993044 18211575961 94-71-AC-CD- 阅读全文
posted @ 2017-11-03 09:59
初见微凉i
阅读(261)
评论(0)
推荐(0)
摘要:
一、神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而MapReduce就是一种简化并行计算的编程模型,它 阅读全文
posted @ 2017-11-03 09:57
初见微凉i
阅读(357)
评论(0)
推荐(0)
摘要:
一、RPC基础概念 1.1 RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用; (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。 RPC协议假定某些传输协议的存在 阅读全文
posted @ 2017-11-03 09:56
初见微凉i
阅读(279)
评论(0)
推荐(0)
摘要:
一.HDFS出现的背景 随着社会的进步,需要处理数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是却不方便管理和维护—>因此,迫切需要一种系统来管理多台机器上的文件,于是就产生了分布式文件管理系统,英文名成为DFS(Distributed File Sys 阅读全文
posted @ 2017-11-03 09:47
初见微凉i
阅读(278)
评论(0)
推荐(0)
摘要:
一、Hadoop的发展历史 说到Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google。Google(自称)为云计算概念的提出者,在自身多年的搜索引擎业务中构建了突破性的GFS(Google File System),从此文件系统进入分布式时代。除此之外,Google在G 阅读全文
posted @ 2017-11-03 09:30
初见微凉i
阅读(230)
评论(0)
推荐(0)
摘要:
一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境;■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例;■ 集群模式:Zookeeper运行于一个集群上,适合生产环 阅读全文
posted @ 2017-11-03 08:52
初见微凉i
阅读(273)
评论(0)
推荐(0)
摘要:
一、分布式协调技术 在给大家介绍ZooKeeper之前先来给大家介绍一种技术——分布式协调技术。那么什么是分布式协调技术?那么我来告诉大家,其实分布式协调技术 主要用来解决分布式环境当中多个进程之间的同步控制,让他们有序的去访问某种临界资源,防止造成"脏数据"的后果。这时,有人可能会说这个简单,写一 阅读全文
posted @ 2017-11-03 08:46
初见微凉i
阅读(185)
评论(0)
推荐(0)

浙公网安备 33010602011771号