流计算 - 文章分类 - ostin

Storm介绍及与Spark Streaming对比

摘要：1 Storm介绍 Storm是由Twitter开源的分布式、高容错的实时处理系统，它的出现令持续不断的流计算变得容易，弥补了Hadoop批处理所不能满足的实时要求。Storm常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。在Storm的集群里面有两种节点：控制节点(Mas 阅读全文

posted @ 2017-08-13 15:34 ostin 阅读(243) 评论(0) 推荐(0)

Netty介绍

只有注册用户登录后才能阅读该文。

posted @ 2017-08-13 15:19 ostin 阅读(1) 评论(0) 推荐(0)

流式大数据处理的三种框架：Storm，Spark和Samza

摘要：1、从编程的灵活性来讲，Storm是比较理想的选择，它使用Apache Thrift，可以用任何编程语言来编写拓扑结构（Topology）2、当需要在一个集群中把流计算和图计算、机器学习、SQL查询分析等进行结合(批处理和流处理结合)时，可以选择Spark Streaming，因为，在Spark上可阅读全文

posted @ 2017-08-12 17:24 ostin 阅读(388) 评论(0) 推荐(0)

Samza

摘要：一、基本概念 1.作业一个作业（Job）是对一组输入流进行处理转化成输出流的程序。 2、分区 Samza的流数据单位一条条消息。Storm中的元组，Spark Streaming中的DStream。 Samza中的每个流都被分割成一个或多个分区，对于流里的每一个分区而言，都是一个有序的消息序列，后续阅读全文

posted @ 2017-08-12 16:39 ostin 阅读(158) 评论(0) 推荐(0)

Spark Streaming（下）--实时流计算Spark Streaming实战

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取 1、实例演示 1.1 流数据模拟器 1.1.1 流数据说明在实例演示中模拟实际情况，需要源源不断地接入流数据，为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能：通过Socket方式监听阅读全文

posted @ 2017-08-05 21:45 ostin 阅读(416) 评论(0) 推荐(0)

Spark Streaming（上）--实时流计算Spark Streaming原理介绍

摘要：1、Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从阅读全文

posted @ 2017-08-05 21:37 ostin 阅读(384) 评论(0) 推荐(0)

Spark Streaming实时计算框架介绍--包含Spark Streaming到Spark批处理任务的转换过程

摘要：随着大数据的发展，人们对大数据的处理要求也越来越高，原有的批处理框架MapReduce适合离线计算，却无法满足实时性要求较高的业务，如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架，通过它提供的丰富的API、基于内存的高速执行引擎，用户可以结合流式、批处阅读全文

posted @ 2017-08-05 21:32 ostin 阅读(677) 评论(0) 推荐(0)

Spark Streaming

摘要：一、Spark Streaming设计 Spark Streaming可整合多种输入数据源，如Kafka(多框架产品信息交换)、Flume(日志采集系统)、HDFS，TCP套接字。经处理后的数据可存储至文件系统、数据库，或显示在仪表盘里。 1、Spark Streaming的基本原理 Spark S 阅读全文

posted @ 2017-08-05 21:15 ostin 阅读(214) 评论(0) 推荐(0)

序列化和反序列化

摘要：序列化 JAVA中的概念，普通类型、对象实例存储和网络传输都要转换为字节流，即序列化过程。读取数据或网络接收到数据都要反序列化，即把字节流还原为真实类型。序列化 (Serialization)将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间，对象将其当前状态写入到临时或持久性存储区。阅读全文

posted @ 2017-08-02 22:28 ostin 阅读(128) 评论(0) 推荐(0)

理解Storm并发

摘要：理解Storm并发作者:Jack47 PS：如果喜欢我写的文章，欢迎关注我的微信公众账号程序员杰克，两边的文章会同步，也可以添加我的RSS订阅源。注：本文主要内容翻译自understanding-the-parallelism-of-a-storm-topology 本篇文章介绍了Storm拓扑阅读全文

posted @ 2017-08-02 22:10 ostin 阅读(177) 评论(0) 推荐(0)

Storm介绍(二)

摘要：Storm介绍(二) 作者:Jack47 转载请保留作者和原文出处欢迎关注我的微信公众账号程序员杰克，两边的文章会同步，也可以添加我的RSS订阅源。本文是Storm系列之一，主要介绍Storm的架构设计，推荐读者在阅读Storm介绍(一）的基础之上，阅读这一篇。本文只是作者的读书笔记，偏重于浅层阅读全文

posted @ 2017-08-02 22:07 ostin 阅读(132) 评论(0) 推荐(0)

Storm介绍(一)

摘要：Storm介绍(一) 作者:Jack47 PS：如果喜欢我写的文章，欢迎关注我的微信公众账号程序员杰克，两边的文章会同步，也可以添加我的RSS订阅源。内容简介本文是Storm系列之一，介绍了Storm的起源，Storm作者的八卦，Storm的特点和Storm模型的基本原理，着重介绍了Storm中阅读全文

posted @ 2017-08-02 22:05 ostin 阅读(118) 评论(0) 推荐(0)

Storm内部的消息传递机制

摘要：Storm内部的消息传递机制作者:Jack47 转载请保留作者和原文出处欢迎关注我的微信公众账号程序员杰克，两边的文章会同步，也可以添加我的RSS订阅源。一个Storm拓扑，就是一个复杂的多阶段的流式计算。Storm中的组件(Component)就是对各个阶段的一个抽象，其中的Spout是生产阅读全文

posted @ 2017-08-01 23:08 ostin 阅读(135) 评论(0) 推荐(0)

Storm序列化

摘要：序列化本文阐述了 Storm 0.6.0 以上版本的序列化机制。在低于 0.6.0 版本的 Storm 中使用了另一种序列化系统，详细信息可以参考 Serialization (prior to 0.6.0) 一文。 Storm 中的 tuple 可以包含任何类型的对象。由于 Storm 是一个分阅读全文

posted @ 2017-08-01 22:50 ostin 阅读(99) 评论(0) 推荐(0)

开源流计算框架Storm

摘要：一、Storm简介批处理系统关注吞吐率，流处理系统关注延时 Storm可以简单、高效、可靠地处理流数据，并支持多种编程语言 Storm框架可以方便地与数据库系统进行整合，从而开发出强大的实时计算系统 Twitter是全球访问量最大的社交网站之一，Twitter开发Storm流处理框架也是为了应对其阅读全文

posted @ 2017-07-29 19:57 ostin 阅读(847) 评论(0) 推荐(0)

流计算处理流程

摘要：一、数据处理流程 1、传统数据处理传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中，之后由用户通过查询操作和数据管理系统进行交互传统的数据处理流程隐含了两个前提：(1)存储的数据是旧的。存储的静态数据是过去某一时刻的快照，这些数据在查询时可能已不具备时效性了(2)需要用户主动阅读全文

posted @ 2017-07-29 17:00 ostin 阅读(3498) 评论(1) 推荐(0)

流计算概述

摘要：一、静态数据和流数据很多企业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP（On-Line Analytical Processing）分析工具从静态数据中找到对企业有价值的信息近年来，在Web应用、网络监控(电子商务用户点击流)、传阅读全文

posted @ 2017-07-29 15:49 ostin 阅读(8027) 评论(0) 推荐(0)

数据分析、数据挖掘、数据统计、OLAP 之间的差异

摘要：作者：孙文亮链接：https://www.zhihu.com/question/19653226/answer/12592187来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。我觉得前数据分析、数据挖掘、数据统计正好是广义数据分析的三个方向： 1、数据分析。数据分阅读全文

posted @ 2017-07-29 15:33 ostin 阅读(375) 评论(0) 推荐(0)

ostin

文章分类 - 流计算