摘要:Metrics-Java版的指标度量工具之一 Metrics-Java版的指标度量工具之二 JAVA Metrics 度量工具使用介绍1 JAVA Metrics度量工具 - Metrics Core 翻译 http://blog.synyx.de/2013/09/yammer-metrics-made-easy-part-i/ http://kafka.apache.org/...
阅读全文
摘要:首先kafka的throughput 很牛逼,参考:http://engineering.linkedin.com/kafka/benchmarking-apache-kafka-2-million-writes-second-three-cheap-machines 接着主要谈一下,Kafka的可靠性问题,有哪些机会可能丢数据? 从producer,broker,consumer的...
阅读全文
摘要:https://github.com/wurstmeister/storm-kafka-0.8-plus http://blog.csdn.net/xeseo/article/details/18615761 准备,一些相关类 GlobalPartitionInformation (storm.kafka.trident) 记录partitionid和broker的关系 Gl...
阅读全文
摘要:参考, https://cwiki.apache.org/confluence/display/KAFKA/0.8.0+Producer+Example http://kafka.apache.org/08/configuration.html , 0.8版本,关于producer,consumer,broker所有的配置 因为Producer相对于consumer比较简单,直接看代码...
阅读全文
摘要:参考, https://cwiki.apache.org/confluence/display/KAFKA/System+Tools https://cwiki.apache.org/confluence/display/KAFKA/Replication+tools http://kafka.ap
阅读全文
摘要:对于kafka的consumer接口,提供两种版本, high-level 一种high-level版本,比较简单不用关心offset, 会自动的读zookeeper中该Consumer group的last offset 参考,https://cwiki.apache.org/confluence/display/KAFKA/Consumer+Group+Example 不过要...
阅读全文
摘要:Replica 对于local replica, 需要记录highWatermarkValue,表示当前已经committed的数据对于remote replica,需要记录logEndOffsetValue以及更新的时间 package kafka.clusterclass Replica(val brokerId: Int, val partition: Parti...
阅读全文
摘要:如果说controller作为master,负责全局的事情,比如选取leader,reassignment等那么ReplicaManager就是worker,负责完成replica的管理工作 主要工作包含,stopReplicagetOrCreatePartitiongetLeaderReplicaIfLocalgetReplicareadMessageSetsbecomeLeaderOrFoll...
阅读全文
摘要:参考,https://cwiki.apache.org/confluence/display/KAFKA/kafka+Detailed+Replication+Design+V3 Major changes compared with the v2 proposal. 最大的不同在于加入Controller,简化partition的leader electing并且除了将改动更新到ZK上以外,co...
阅读全文
摘要:https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Controller+Internalshttps://cwiki.apache.org/confluence/display/KAFKA/kafka+Detailed+Replication+Design+V3 Controller是为了加入replica机制而创建的,0.7时brok...
阅读全文
摘要:参考,https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Replication Kafka Replication High-level Design Replication是0.8里面加入的新功能,保障当broker crash后数据不会丢失 设计目标, 提供可配置,需要保障stronger durability可以ena...
阅读全文
摘要:LogManager LogManager会管理broker上所有的logs(在一个log目录下),一个topic的一个partition对应于一个log(一个log子目录)首先loadLogs会加载每个partition所对应的log对象, 然后提供createLog,getLog,deleteLog之类的管理接口并且会创建些后台线程来进行,cleanup,flush,checkpoint生成...
阅读全文
摘要:1. Kafka.scala 在Kafka的main入口中startup KafkaServerStartable, 而KafkaServerStartable这是对KafkaServer的封装 1: val kafkaServerStartble = new KafkaServerStartable(serverConfig) 2: kafkaServerStartble.sta...
阅读全文
摘要:http://engineering.linkedin.com/data-streams/apache-samza-linkedins-real-time-stream-processing-frameworkhttp://samza.incubator.apache.org/前两年一直在使用Kafka, 虽说Kafka一直说可用于online分析, 但是实际在使用的时候会发现问题很多, 比如deploy, 调度, failover等, 我们也做了一些相应的工作 Samza算是把这个补全了, 可以更加简单的在Kafka上进行online分析, 所以看着比较亲切1 Background首先对me
阅读全文
摘要:http://engineering.linkedin.com/distributed-systems/log-what-every-software-engineer-should-know-about-real-time-datas-unifying主要的思想, 将所有的系统都可以看作两部分,真正的数据log系统和各种各样的query engine 所有的一致性由log系统来保证,其他各种query engine不需要考虑一致性,安全性,只需要不停的从log系统来同步数据,如果数据丢失或crash可以从log系统replay来恢复 可以看出kafka系统在linke...
阅读全文
摘要:https://cwiki.apache.org/confluence/display/KAFKA/Kafka+0.8+Quick+Start0.8 is a huge step forward in functionality from 0.7.xThis release includes the following major features:Partitions are now replicated. 支持partition的复本, 避免broker失败导致的数据丢失 Previously the topic would remain available in the case of
阅读全文
摘要:http://kafka.apache.org/07/design.html中文版的设计文档, http://www.oschina.net/translate/kafka-designOverviewUse cases for activity stream and operational data"动态汇总(News feed)"功能。将你朋友的各种活动信息广播给你相关性以及排序。通过使用计数评级(count rating)、投票(votes)或者点击率( click-through)判定一组给定的条目中那一项是最相关的.安全:网站需要屏蔽行为不端的网络爬虫(crawl
阅读全文
摘要:Kafka Refer–http://research.microsoft.com/en-us/um/people/srikanth/netdb11/netdb11papers/netdb11-final12.pdf- http://incubator.apache.org/kafka- http://prezi.com/sj433kkfzckd/kafka-bringing-reliable-stream-processing-to-a-cold-dark-world/- http://sna-projects.com/blog/2011/08/kafka/- http://sna-proj
阅读全文
摘要:Why?关系型数据库仍然作为主要的primary data store的方案 Relational Databases have been around for a long time and have become a trusted storage medium for all of a company's data. 传统的数据仓库的ETL和OLAP方案 Data is pulled off this primary data store, transformed, and then stored in a secondary data store, such as a...
阅读全文