2016 年 10月 23 日随笔档案 - 大数据和AI躺过的坑

2016年10月23日

摘要：不多说，直接上干货！数据流模型数据流模型是由数据流、数据处理任务、数据节点、数据处理任务实例等构成的一种数据模型。本节将介绍的数据流模型如图1所示。分布式流处理系统由多个数据处理节点（node）组成，每个数据处理节点上运行有多个数据任务实例，每个数据任务实例属于一个数据任务定义。任务实例是在任阅读全文

posted @ 2016-10-23 11:56 大数据和AI躺过的坑阅读(1434) 评论(0) 推荐(0)

Storm概念学习系列之事务

摘要：不多说，直接上干货！事务这里的事务是专门针对Topology提出来的，是为了解决元组在处理失败重新发送后的一系列问题的。简而言之，事务拓扑（transactional topology）就是指Storm以并行和顺序处理混合的方式处理元组，一方面是处理消息，将消息分为一批批，并行处理同一批内的消息阅读全文

posted @ 2016-10-23 11:54 大数据和AI躺过的坑阅读(365) 评论(0) 推荐(0)

Storm概念学习系列之Worker、Task、Executor三者之间的关系

摘要：不多说，直接上干货！ Worker、Task、Executor三者之间的关系 Storm集群中的一个物理节点启动一个或者多个Worker进程，集群的Topology都是通过这些Worker进程运行的。然而，Worker进程中又会运行一个或者多个Executor线程，每个Executor线程只运行一阅读全文

posted @ 2016-10-23 11:53 大数据和AI躺过的坑阅读(894) 评论(0) 推荐(0)

Storm概念学习系列之Worker工作者进程

摘要：不多说，直接上干货！ Worker工作者进程工作者进程（Worker）是一个java进程，执行拓扑的一部分任务。一个Worker进程执行一个Topology的子集，它会启动一个或多个Executor线程来执行一个Topology的组件（Spout或Bolt）。因此，拓扑在执行时，可能跨一个或多个W 阅读全文

posted @ 2016-10-23 11:52 大数据和AI躺过的坑阅读(379) 评论(0) 推荐(0)

Storm概念学习系列之Task任务

摘要：不多说，直接上干货！每一个Spout/Bolt的线程称为一个Task。 Task任务 Task是运行Spout或Bolt的单元，每一个Spout/Bolt的线程称为一个Task。在Storm 0.8及之后的版本中，Task不再与物理线程对应，同一个Spout/Bolt的Task可能会共享一个物理阅读全文

posted @ 2016-10-23 11:51 大数据和AI躺过的坑阅读(581) 评论(0) 推荐(0)

Storm概念学习系列之Stream消息流和 Stream Grouping 消息流组

摘要：不多说，直接上干货！ Stream消息流是Storm中最关键的抽象，是一个没有边界的Tuple序列。 Stream Grouping 消息流组是用来定义一个流如何分配到Tuple到Bolt。 Stream消息流和Stream Grouping消息流组 Storm核心的抽象概念是“流”。流是一个分布式阅读全文

posted @ 2016-10-23 11:50 大数据和AI躺过的坑阅读(680) 评论(0) 推荐(0)

Storm概念学习系列之Topology拓扑

摘要：不多说，直接上干货！ Hadoop 上运行的是 MapReduce 作业，而在 Storm 上运行的是拓扑 Topology，这两者之间是非常不同的。一个关键的区别是：一个MapReduce 作业最终会结束，而一个 Topology 拓扑会永远运行（除非手动杀掉）。 Topology拓扑从字面上解阅读全文

posted @ 2016-10-23 11:49 大数据和AI躺过的坑阅读(4182) 评论(0) 推荐(0)

Storm概念学习系列之Blot消息处理者

摘要：不多说，直接上干货！ Bolt消息处理者认识了消息源Spout和消息的数据存储元组Tuple，接下来了解消息的处理者Bolt。Bolt是接收Spout发出元组Tuple后处理数据的组件，所有的消息处理逻辑被封装在Bolt中，Bolt负责处理输入的数据流并产生输出的新数据流。 1. Bolt介绍消阅读全文

posted @ 2016-10-23 11:46 大数据和AI躺过的坑阅读(1261) 评论(0) 推荐(1)

Storm概念学习系列之Spout数据源

摘要：不多说，直接上干货！ Spout 数据源消息源Spout是Storm的Topology中的消息生产者（即Tuple的创造者）。 Spout 介绍 1. Spout 的结构 Spout 是 Storm 的核心组件之一，最源头的接口是 IComponent，如图 1所示，几个Spout接口都继承自IC 阅读全文

posted @ 2016-10-23 11:33 大数据和AI躺过的坑阅读(1171) 评论(0) 推荐(0)

Storm概念学习系列之Tuple元组（数据载体）

摘要：不多说，直接上干货！ Tuple元组 Tuple 是 Storm 的主要数据结构，并且是 Storm 中使用的最基本单元、数据模型和元组。 Tuple 描述 Tuple 就是一个值列表， Tuple 中的值可以是任何类型的，动态类型的Tuple的fields可以不用声明；默认情况下，Storm中的T 阅读全文

posted @ 2016-10-23 11:31 大数据和AI躺过的坑阅读(3487) 评论(0) 推荐(0)

开始使用storm

摘要：开始使用storm 本章将讲述如何安装、部署、启动和停止 Storm 集群。 Storm 的安装比较简单，但在安装 Storm 之前需要做好充足的准备，本章将介绍安装的整个流程。在官网上可以下载到Storm 最新的和稳定的几个版本。截至本书截稿之前， Storm 的最新版本是 0.9.3，但是本书主阅读全文

posted @ 2016-10-23 11:28 大数据和AI躺过的坑阅读(1387) 评论(0) 推荐(1)

Storm概念学习系列之storm的功能和三大应用

摘要：不多说，直接上干货！ storm的功能 Storm 有许多应用领域：实时分析、在线机器学习、持续计算、分布式 RPC（远过程调用协议，一种通过网络从远程计算机程序上请求服务）、 ETL（Extraction-Transformation-Loading 的缩写，即数据抽取、转换和加载）等。下面介绍阅读全文

posted @ 2016-10-23 11:23 大数据和AI躺过的坑阅读(1831) 评论(0) 推荐(0)

Storm概念学习系列之storm的特性

摘要：不多说，直接上干货！ storm的特性 Storm 是一个开源的分布式实时计算系统，可以简单、可靠地处理大量的数据流。 Storm支持水平扩展，具有高容错性，保证每个消息都会得到处理，而且处理速度很快（在一个小集群中，每个节点每秒可以处理数以百万计的消息）。 Storm 的部署和运维都很便捷，而且更阅读全文

posted @ 2016-10-23 11:21 大数据和AI躺过的坑阅读(806) 评论(0) 推荐(0)

Storm概念学习系列之storm核心组件

摘要：不多说，直接上干货！ Storm核心组件了解 Storm 的核心组件对于理解 Storm 原理非常重要，下面介绍 Storm 的整体，然后介绍 Storm 的核心。 Storm 集群由一个主节点和多个工作节点组成。主节点运行一个名为“Nimbus”的守护进程，工作节点都运行一个名为“Supervi 阅读全文

posted @ 2016-10-23 11:20 大数据和AI躺过的坑阅读(711) 评论(0) 推荐(0)

Storm概念学习系列之Storm与Hadoop的角色和组件比较

摘要：不多说，直接上干货! Storm与Hadoop的角色和组件比较 Storm 集群和 Hadoop 集群表面上看很类似。但是 Hadoop 上运行的是 MapReduce 作业，而在 Storm 上运行的是拓扑 Topology，这两者之间是非常不同的。一个关键的区别是：一个MapReduce 作业最阅读全文

posted @ 2016-10-23 11:19 大数据和AI躺过的坑阅读(782) 评论(0) 推荐(0)

Storm概念学习系列之storm的设计思想

摘要：不多说，直接上干货！ storm的设计思想在 Storm 中也有对流（Stream）的抽象，流是一个不间断的、无界的连续 Tuple（Storm在建模事件流时，把流中的事件抽象为 Tuple 即元组）。Storm 认为每个流都有一个 Stream 源，也就是原始元组的源头，所以它将这个源头抽象为阅读全文

posted @ 2016-10-23 11:17 大数据和AI躺过的坑阅读(1568) 评论(1) 推荐(1)

Storm概念学习系列之storm简介

摘要：不多说，直接上干货！ storm简介 Storm 是 Twitter 开源的、分布式的、容错的实时计算系统，遵循 Eclipse Public License1.0。 Storm 通过简单的 API 使开发者可以可靠地处理无界持续的流数据，进行实时计算。 Twitter Storm 是使用 Cloj 阅读全文

posted @ 2016-10-23 11:16 大数据和AI躺过的坑阅读(584) 评论(0) 推荐(0)

Storm概念学习系列之storm出现的背景

摘要：不多说，直接上干货！ storm出现的背景互联网从诞生的第一时间起，对世界的最大改变就是让信息能够实时交互，从而大大加速了各个环节的效率。正因为大家有对信息实时响应、实时交互的需求，所以软件行业除了个人操作系统之外，数据库（更精确的说是关系型数据库）应该是发展最快、收益最为丰厚的产品了。记得十年前阅读全文

posted @ 2016-10-23 11:15 大数据和AI躺过的坑阅读(779) 评论(0) 推荐(0)

Storm概念学习系列之什么是实时流计算？

摘要：不多说，直接上干货！什么是实时流计算？ 1、实时流计算背景 2、实时计算应用场景 3、实时计算处理流程 4、实时计算框架什么是实时流计算？所谓实时流计算，就是近几年由于数据得到广泛应用之后，在数据持久性建模不满足现状的情况下，急需数据流的瞬时建模或者计算处理。这种实时计算的应用实例有金融服务、阅读全文

posted @ 2016-10-23 11:13 大数据和AI躺过的坑阅读(8783) 评论(0) 推荐(0)

Storm概念学习系列之storm-starter项目（完整版）（博主推荐）

摘要：不多说，直接上干货！这是书籍《从零开始学Storm》赵必厦 2014年出版的配套代码！ storm-starter项目包含使用storm的各种各样的例子。项目托管在GitHub上面，其网址为: http://github.com/nathanmarz/storm-starter 或者 storm- 阅读全文

posted @ 2016-10-23 11:00 大数据和AI躺过的坑阅读(2373) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告