随笔档案「2014年7月」 - 玖疯

Spark Streaming和Flume-NG对接实验

摘要：Spark Streaming是一个新的实时计算的利器，而且还在快速的发展。它将输入流切分成一个个的DStream转换为RDD，从而可以使用Spark来处理。它直接支持多种数据源：Kafka, Flume, Twitter, ZeroMQ , TCP sockets等，有一些可以操作的函数：ma... 阅读全文

posted @ 2014-07-24 19:26 玖疯阅读(6841) 评论(2) 推荐(1)

Flume-NG内置计数器(监控)源码级分析

摘要：Flume的内置监控怎么整？这个问题有很多人问。目前了解到的信息是可以使用Cloudera Manager、Ganglia有图形的监控工具，以及从浏览器获取json串，或者自定义向其他监控系统汇报信息。那监控的信息是什么呢？就是各个组件的统计信息，比如成功接收的Event数量、成功发送的Even... 阅读全文

posted @ 2014-07-15 22:11 玖疯阅读(5222) 评论(0) 推荐(2)

Flume-NG(1.5版本)中SpillableMemoryChannel源码级分析

摘要：SpillableMemoryChannel是1.5版本新增的一个channel。这个channel优先将evnet放在内存中，一旦内存达到设定的容量就使用file channel写入磁盘。然后读的时候会按照顺序读取：会通过一个DrainOrderQueue来保证不管是内存中的还是溢出(本文的“... 阅读全文

posted @ 2014-07-04 23:04 玖疯阅读(2923) 评论(1) 推荐(1)

Spark-1.0.0 standalone分布式安装教程

摘要：Spark目前支持多种分布式部署方式：一、Standalone Deploy Mode；二Amazon EC2、；三、Apache Mesos；四、Hadoop YARN。第一种方式是单独部署，不需要有依赖的资源管理器，其它三种都需要将spark部署到对应的资源管理器上。除了部署的多种方式之... 阅读全文

posted @ 2014-07-02 09:20 玖疯阅读(3146) 评论(0) 推荐(0)

玖疯

本来名字要写“疚疯”的，结果一不小心成“玖疯”了。。。

07 2014 档案

公告