打赏
上一页 1 ··· 149 150 151 152 153 154 155 156 157 ··· 180 下一页
摘要: 不多说,直接上干货! Worker、Task、Executor三者之间的关系 Storm集群中的一个物理节点启动一个或者多个Worker进程,集群的Topology都是通过这些Worker进程运行的。 然而,Worker进程中又会运行一个或者多个Executor线程,每个Executor线程只运行一 阅读全文
posted @ 2016-10-23 11:53 大数据和AI躺过的坑 阅读(893) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Worker工作者进程 工作者进程(Worker)是一个java进程,执行拓扑的一部分任务。一个Worker进程执行一个Topology的子集,它会启动一个或多个Executor线程来执行一个Topology的组件(Spout或Bolt)。因此,拓扑在执行时,可能跨一个或多个W 阅读全文
posted @ 2016-10-23 11:52 大数据和AI躺过的坑 阅读(377) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 每一个Spout/Bolt的线程称为一个Task。 Task任务 Task是运行Spout或Bolt的单元,每一个Spout/Bolt的线程称为一个Task。 在Storm 0.8及之后的版本中,Task不再与物理线程对应,同一个Spout/Bolt的Task可能会共享一个物理 阅读全文
posted @ 2016-10-23 11:51 大数据和AI躺过的坑 阅读(566) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Stream消息流是Storm中最关键的抽象,是一个没有边界的Tuple序列。 Stream Grouping 消息流组是用来定义一个流如何分配到Tuple到Bolt。 Stream消息流和Stream Grouping消息流组 Storm核心的抽象概念是“流”。流是一个分布式 阅读全文
posted @ 2016-10-23 11:50 大数据和AI躺过的坑 阅读(678) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Hadoop 上运行的是 MapReduce 作业,而在 Storm 上运行的是拓扑 Topology,这两者之间是非常不同的。一个关键的区别是:一个MapReduce 作业最终会结束,而一个 Topology 拓扑会永远运行(除非手动杀掉)。 Topology拓扑 从字面上解 阅读全文
posted @ 2016-10-23 11:49 大数据和AI躺过的坑 阅读(4171) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Bolt消息处理者 认识了消息源Spout和消息的数据存储元组Tuple,接下来了解消息的处理者Bolt。Bolt是接收Spout发出元组Tuple后处理数据的组件,所有的消息处理逻辑被封装在Bolt中,Bolt负责处理输入的数据流并产生输出的新数据流。 1. Bolt介绍 消 阅读全文
posted @ 2016-10-23 11:46 大数据和AI躺过的坑 阅读(1250) 评论(0) 推荐(1)
摘要: 不多说,直接上干货! Spout 数据源 消息源Spout是Storm的Topology中的消息生产者(即Tuple的创造者)。 Spout 介绍 1. Spout 的结构 Spout 是 Storm 的核心组件之一,最源头的接口是 IComponent,如图 1所示,几个Spout接口都继承自IC 阅读全文
posted @ 2016-10-23 11:33 大数据和AI躺过的坑 阅读(1168) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Tuple元组 Tuple 是 Storm 的主要数据结构,并且是 Storm 中使用的最基本单元、数据模型和元组。 Tuple 描述 Tuple 就是一个值列表, Tuple 中的值可以是任何类型的,动态类型的Tuple的fields可以不用声明;默认情况下,Storm中的T 阅读全文
posted @ 2016-10-23 11:31 大数据和AI躺过的坑 阅读(3486) 评论(0) 推荐(0)
摘要: 开始使用storm 本章将讲述如何安装、部署、启动和停止 Storm 集群。 Storm 的安装比较简单,但在安装 Storm 之前需要做好充足的准备,本章将介绍安装的整个流程。在官网上可以下载到Storm 最新的和稳定的几个版本。截至本书截稿之前, Storm 的最新版本是 0.9.3,但是本书主 阅读全文
posted @ 2016-10-23 11:28 大数据和AI躺过的坑 阅读(1378) 评论(0) 推荐(1)
摘要: 不多说,直接上干货! storm的功能 Storm 有许多应用领域:实时分析、在线机器学习、持续计算、分布式 RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading 的缩写,即数据抽取、转换和加载)等。 下面介绍 阅读全文
posted @ 2016-10-23 11:23 大数据和AI躺过的坑 阅读(1826) 评论(0) 推荐(0)
上一页 1 ··· 149 150 151 152 153 154 155 156 157 ··· 180 下一页