07 2014 档案

摘要:Spark Streaming是一个新的实时计算的利器,而且还在快速的发展。它将输入流切分成一个个的DStream转换为RDD,从而可以使用Spark来处理。它直接支持多种数据源:Kafka, Flume, Twitter, ZeroMQ , TCP sockets等,有一些可以操作的函数:ma... 阅读全文
posted @ 2014-07-24 19:26 玖疯 阅读(6841) 评论(2) 推荐(1)
摘要:Flume的内置监控怎么整?这个问题有很多人问。目前了解到的信息是可以使用Cloudera Manager、Ganglia有图形的监控工具,以及从浏览器获取json串,或者自定义向其他监控系统汇报信息。那监控的信息是什么呢?就是各个组件的统计信息,比如成功接收的Event数量、成功发送的Even... 阅读全文
posted @ 2014-07-15 22:11 玖疯 阅读(5222) 评论(0) 推荐(2)
摘要:SpillableMemoryChannel是1.5版本新增的一个channel。这个channel优先将evnet放在内存中,一旦内存达到设定的容量就使用file channel写入磁盘。然后读的时候会按照顺序读取:会通过一个DrainOrderQueue来保证不管是内存中的还是溢出(本文的“... 阅读全文
posted @ 2014-07-04 23:04 玖疯 阅读(2923) 评论(1) 推荐(1)
摘要:Spark目前支持多种分布式部署方式:一、Standalone Deploy Mode;二Amazon EC2、;三、Apache Mesos;四、Hadoop YARN。第一种方式是单独部署,不需要有依赖的资源管理器,其它三种都需要将spark部署到对应的资源管理器上。 除了部署的多种方式之... 阅读全文
posted @ 2014-07-02 09:20 玖疯 阅读(3146) 评论(0) 推荐(0)