2012年8月28日

HBase Thrift接口C++客户端

摘要:hbase-thrift项目是对HBase Thrift接口的封装,屏蔽底层的细节,使用户可以方便地通过HBase Thrift接口访问HBase集群,同时基于此对C++客户端读写的效率进行了简单的测试。该项目目前基于的是HBase thrift接口,至于HBase 0.94版本中的HBase thrift2接口,后续再考虑进一步的支持。 阅读全文

posted @ 2012-08-28 13:08 大圆那些事 阅读 (10272) 评论 (0) 编辑

2012年8月6日

GitHub项目Storm-HBase介绍

摘要:最近完成了一个GitHub项目:Storm-HBase,该项目是Twitter Storm和Apache HBase的结合,它使用HBase cluster作为Storm的Spout数据源,目前只是初步实现,后续会进一步完善。 阅读全文

posted @ 2012-08-06 12:29 大圆那些事 阅读 (11243) 评论 (7) 编辑

2012年7月29日

Storm数据流模型的分析及讨论

摘要:本文首先介绍了Storm的基本概念和数据流模型,然后结合一个典型应用场景来说明Storm支持Topology之间数据流订阅的必要性,最后对比了Storm与另一个流处理系统在数据流模型上的区别之处。 阅读全文

posted @ 2012-07-29 16:06 大圆那些事 阅读 (33417) 评论 (8) 编辑

2012年7月22日

HBase异常:hbase-default.xml file seems to be for and old version of HBase的解决方法

摘要:近期在使用HBase Java Client连接HBase服务端创建Configuration对象时,遇到了hbase-default.xml file seems to be for and old version of HBase的异常,经过查找资料及阅读HBase相关源码,对这类异常的解决方法做一下总结。 阅读全文

posted @ 2012-07-22 10:19 大圆那些事 阅读 (6907) 评论 (0) 编辑

2012年7月11日

HTable和HTablePool使用注意事项

摘要:HTable和HTablePool都是HBase客户端API的一部分,可以使用它们对HBase表进行CRUD操作。下面结合在项目中的应用情况,对二者使用过程中的注意事项做一下概括总结。 阅读全文

posted @ 2012-07-11 16:40 大圆那些事 阅读 (18775) 评论 (4) 编辑

2012年7月2日

Storm常见模式——分布式RPC

摘要:分布式RPC(distributed RPC,DRPC)用于对Storm上大量的函数调用进行并行计算过程。对于每一次函数调用,Storm集群上运行的拓扑接收调用函数的参数信息作为输入流,并将计算结果作为输出流发射出去。本文翻译自:https://github.com/nathanmarz/storm/wiki/Distributed-RPC,作为学习Storm DRPC的资料,转载必须以超链接形式标明文章原始出处及本文翻译链接。 阅读全文

posted @ 2012-07-02 20:27 大圆那些事 阅读 (18028) 评论 (1) 编辑

2012年6月26日

Storm常见模式——TimeCacheMap

摘要:Storm中使用一种叫做TimeCacheMap的数据结构,用于在内存中保存近期活跃的对象,它的实现非常地高效,而且可以自动删除过期不再活跃的对象。TimeCacheMap使用多个桶buckets来缩小锁的粒度,以此换取高并发读写性能。 阅读全文

posted @ 2012-06-26 12:32 大圆那些事 阅读 (7972) 评论 (2) 编辑

2012年6月19日

Storm常见模式——BasicBolt

摘要:这里介绍Storm的一个常见模式——BasicBolt,用于实现简单函数处理过程或过滤器功能,Storm中专门为这种模式封装了相应接口:IBasicBolt。BaseBasicBolt等类实现了这一接口。 阅读全文

posted @ 2012-06-19 19:56 大圆那些事 阅读 (6029) 评论 (2) 编辑

Storm常见模式——批处理

摘要:Storm对流数据进行实时处理时,一种常见场景是批量一起处理一定数量的tuple元组,而不是每接收一个tuple就立刻处理一个tuple,这样可能是性能的考虑,或者是具体业务的需要。下面是针对这种场景的一个示例代码。 阅读全文

posted @ 2012-06-19 18:30 大圆那些事 阅读 (12018) 评论 (5) 编辑

2012年6月16日

Storm常见模式——求TOP N

摘要:Storm的另一种常见模式是对流式数据进行所谓“streaming top N”的计算,它的特点是持续的在内存中按照某个统计指标(如出现次数)计算TOP N,然后每隔一定时间间隔输出实时计算后的TOP N结果。这里通过对storm-starter中的示例代码剖析来介绍一种Storm中可扩展的求TOP N的方法。 阅读全文

posted @ 2012-06-16 15:08 大圆那些事 阅读 (9553) 评论 (5) 编辑

导航