01 2014 档案

摘要:介绍TridentTopology的使用,重点分析newDRPCStream和stateQuery的实现机理。 使用TridentTopology进行数据处理的时候,经常会使用State来保存一些状态,这些保存起来的State通过stateQuery来进行查询。问题恰恰在这里产生,即对state进行更新的Stream和尔后进行stateQuery的Stream并非同一个,那么它们之间是如何关联起来的呢。 在TridentTopology中,有一些Processor可能会同处于一个Bolt中,这些Processor形成一个processing chain, 那么Tuple又是如何在这些Processor之间进行传递的呢。 阅读全文
posted @ 2014-01-25 20:45 徽沪一郎 阅读(3635) 评论(0) 推荐(0) 编辑
摘要:本文通过BasicDRPCTopology的实例来分析DRPCTopology在提交的时候, Topology中究竟含有哪些内容? 阅读全文
posted @ 2014-01-09 15:57 徽沪一郎 阅读(1444) 评论(0) 推荐(0) 编辑
摘要:“源码走读系列”从代码层面分析了storm的具体实现,接下来通过具体的实例来说明storm的使用。因为目前storm已经正式迁移到Apache,文章系列也由twitter storm转为apache storm. WordCountTopology 使用storm来统计文件中的每个单词的出现次数。 阅读全文
posted @ 2014-01-05 21:16 徽沪一郎 阅读(3518) 评论(1) 推荐(0) 编辑
摘要:本文详细分析TridentTopology的可靠性实现, TridentTopology通过transactional spout与transactional state相结合,能够做到tuple“只被处理一次,不多也不少”。也就是做到事务性处理exactly-once,要么成功,要么失败。 而一般的storm topology是无法保证eactly-once的处理的,它们要么是at-least-once(至少被处理一次,有可能被处理多次);要么是at-most-once(最多被处理一次,这样就存在遗漏的可能). TridentTopology在设计中借鉴和保留了目前已经过期的transactional topology的设计思想。 阅读全文
posted @ 2014-01-03 12:13 徽沪一郎 阅读(2341) 评论(1) 推荐(0) 编辑