摘要:首先Flume和Kafka都是消息系统,但是它俩也有着很多不同的地方,Flume更趋向于消息采集系统,而Kafka更趋向于消息缓存系统。 【一】设计上的不同 Flume是消息采集系统,它主要解决问题是消息的多元采集。因此Flume在实现上提供了多达十几种的Flume Source,以供用户根据不同的
阅读全文
摘要:在启动Flume的时候,出现下面的异常,但是程序照样能运行,Kafka也能够收到数据,只是偶尔会断点。 2016-08-25 15:32:54,561 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - kafka.utils.Loggin
阅读全文
摘要:前面已经介绍了如何利用Thrift Source生产数据,今天介绍如何用Kafka Sink消费数据。 其实之前已经在Flume配置文件里设置了用Kafka Sink消费数据 那么当Flume的channel收到数据的时候,会根据配置文件主动把数据event发送到Kafka的broker上,所以只要
阅读全文
摘要:Flume OutOfMemoryError错误 运行Flume没多久就报下面的异常: 2016-08-24 17:35:58,927 (Flume Thrift IPC Thread 8) [ERROR - org.apache.flume.channel.ChannelProcessor.pro
阅读全文
摘要:Flume简介与使用(二)——Thrift Source采集数据 继上一篇安装Flume后,本篇将介绍如何使用Thrift Source采集数据。 Thrift是Google开发的用于跨语言RPC通信,它拥有功能强大的软件堆栈和代码生成引擎,允许定义一个简单的IDL文件来生成不同语言的代码,服务器端
阅读全文
摘要:Flume简介与使用(一)——Flume安装与配置 Flume简介 Flume是一个分布式的、可靠的、实用的服务——从不同的数据源高效的采集、整合、移动海量数据。 分布式:可以多台机器同时运行采集数据,不同Agent的之前通过网络传输数据 可靠的:Flume会将采集的数据缓存在Channel里,当S
阅读全文
摘要:Storm是分布式的实时流处理系统,单机模式肯本不能体现其强大特点,尤其是当需要处理的数据很大很快的 时候,Storm可以随时扩容,而且操作非常简单,编写的应用程序自动负载均衡。 前面已经介绍了如何安装Storm——单机模式,如果已经成功安装好了单机模式的Storm,那么扩容就非常简 单了。 1.
阅读全文
摘要:Storm是开源的分布式实时计算系统,能够让数据流处理变得简单、可靠,也因此在大数据领域有广泛的实际 应用。下面介绍一下如何在Linux系统上安装Storm。根据Storm官网介绍,安装Storm软件分五步: 一、Storm作为分布式系统,它的运行需要借助Zookeeper来进行协同。因此安装Sto
阅读全文
摘要:Linux上有的shell脚本运行时候是阻塞的,如果想在屏幕上即能够看到阻塞命令的输出,同时又能够在shell窗口运行其他程序,那么Linux自带的screen命令是非常不错的选择。 1、screen -ls //列出当前已经存在的screen窗口 2、screen -S myscreenname
阅读全文
摘要:Zookeeper:A Distributed Coordination Service for Distributed Applications. 一、Zookeeper简介 众所周知,协同服务是分布式应用首先要解决的一大难题,尤其是在存在资源竞争和死锁的情况。Zookeeper就是这样一个应用,
阅读全文
摘要:Tomcat需要JDK的支持,所以安装Tomcat前先安装JDK。 一、首先到JDK官网下载与自己机器相应的JDK。 注意机器位数,Linux系统的话可以用uname -a命令查看系统信息,如果是Ubuntu的系统,下载后缀为.tar.gz的就行。我64位的机器下的是这个JDK:wget http:
阅读全文