03 2018 档案

摘要:CombinerAggregator首先在每个分区上运行partitionAggregate,在每个partition内先聚合,然后运行全局重新分区(global)操作以合并同一批次的所有分区到一个单独的分区,即把前面每个partition聚合的结果,再放到一个单独的partition进行聚合。 这 阅读全文
posted @ 2018-03-24 21:19 nickt 阅读(153) 评论(0) 推荐(0)
摘要:Aggregator首先在输入流上运行全局重新分区操作(global)将同一批次的所有分区合并到一个分区中,然后在每个批次上运行的聚合功能,针对Batch操作。与ReduceAggregator很相似。 省略部分代码,省略部分可参考:https://blog.csdn.net/nickta/arti 阅读全文
posted @ 2018-03-24 20:58 nickt 阅读(321) 评论(0) 推荐(0)
摘要:ReducerAggregator首先在输入流上运行全局重新分区操作(global)将同一批次的所有分区合并到一个分区中,然后在每个批次上运行的聚合功能,针对Batch操作。 省略部分代码,省略部分可参考:https://blog.csdn.net/nickta/article/details/79 阅读全文
posted @ 2018-03-24 20:32 nickt 阅读(128) 评论(0) 推荐(0)
摘要:以下代码演示function, filter, projection的使用,可结合注释 省略部分代码,省略部分可参考:https://blog.csdn.net/nickta/article/details/79666918 输出: <Sat Mar 24 13:41:42 CST 2018[par 阅读全文
posted @ 2018-03-24 13:43 nickt 阅读(127) 评论(0) 推荐(0)
摘要:partitionAggregate是针对于每个partition,而不是每个batch,对每个partition当中的tuple做聚合 省略部分代码,省略部分可参考:https://blog.csdn.net/nickta/article/details/79666918 以上代码 batch1的 阅读全文
posted @ 2018-03-23 18:36 nickt 阅读(146) 评论(0) 推荐(0)
摘要:batchGlobal把同属于一个batch的tuples分配到相同的partition当中。 省略部分代码,省略部分可参考:https://blog.csdn.net/nickta/article/details/79666918 分析以上代码:使用FixedBatchSpout发射数据,每个ba 阅读全文
posted @ 2018-03-23 18:35 nickt 阅读(109) 评论(0) 推荐(0)
摘要:下代码使用broadcast做repartition, 广播,会把tuples分配到所有的partitions当中, 如果有5个partition,则会把原tuples复制5份,分配到5个partition去 省略部分代码,省略部分可参考:https://blog.csdn.net/nickta/a 阅读全文
posted @ 2018-03-23 16:11 nickt 阅读(111) 评论(0) 推荐(0)
摘要:如下代码使用global做repartition, 数据流中的所有tuple都被分配到同一个partition当中(partition id最小的那个), 省略部分代码,省略部分可参考:https://blog.csdn.net/nickta/article/details/79666918 输出: 阅读全文
posted @ 2018-03-23 15:49 nickt 阅读(122) 评论(0) 推荐(0)
摘要:如下代码使用partitionBy做repartition, partitionBy即根据相应字段的值按一定算法,把tuple分配到目标partition当中(Target Partition = hash(fields) % (number of target partition)), 相同值会被 阅读全文
posted @ 2018-03-23 15:36 nickt 阅读(281) 评论(0) 推荐(0)
摘要:本例包括Storm Trident中shuffle与parallelismHint的使用。 代码当中包括注释 maven 输出结果如下:一共14条 tuples,分布上0-4的partition里 <Fri Mar 23 14:17:13 CST 2018[partition1-Thread-146 阅读全文
posted @ 2018-03-23 14:26 nickt 阅读(170) 评论(0) 推荐(0)
摘要:写作目的:Java大部分框架,如Spring,Hibernate等都会利用动态代理在程序运行的时候生成新的类, 有的时候为了学习,或者深入了解动态代理,想查看动态生成类的源代码究竟长怎么个样子, 通过这篇文章,我们就能够很容易到达目的。 工具:利用JDK自带的工具。 相关命令:java -cp .; 阅读全文
posted @ 2018-03-09 18:47 nickt 阅读(363) 评论(0) 推荐(0)
摘要:Strom集群遵循从主模式,主与从之间通过Zookeeper协作。架构层面上包括三个组件: 1) Nimbus Node 2)Supervisor Nodes 3)Zookeeper 其中Nimbus Node是Storm集群中master, 负责分发任务,监控集群状态,重启应用。 Supervis 阅读全文
posted @ 2018-03-09 18:14 nickt 阅读(159) 评论(0) 推荐(0)
摘要:原文地址: http://storm.apache.org/releases/1.2.1/Understanding-the-parallelism-of-a-Storm-topology.html 什么构成一个运行的拓扑:工作进程,执行器和任务 storm区分以下三个用于在Storm集群中实际运行 阅读全文
posted @ 2018-03-09 08:32 nickt 阅读(216) 评论(0) 推荐(0)