文章分类 -  流计算

Storm介绍及与Spark Streaming对比
摘要:1 Storm介绍 Storm是由Twitter开源的分布式、高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。 在Storm的集群里面有两种节点:控制节点(Mas 阅读全文

posted @ 2017-08-13 15:34 ostin 阅读(233) 评论(0) 推荐(0)

Netty介绍
只有注册用户登录后才能阅读该文。

posted @ 2017-08-13 15:19 ostin 阅读(1) 评论(0) 推荐(0)

流式大数据处理的三种框架:Storm,Spark和Samza
摘要:1、从编程的灵活性来讲,Storm是比较理想的选择,它使用Apache Thrift,可以用任何编程语言来编写拓扑结构(Topology)2、当需要在一个集群中把流计算和图计算、机器学习、SQL查询分析等进行结合(批处理和流处理结合)时,可以选择Spark Streaming,因为,在Spark上可 阅读全文

posted @ 2017-08-12 17:24 ostin 阅读(380) 评论(0) 推荐(0)

Samza
摘要:一、基本概念 1.作业一个作业(Job)是对一组输入流进行处理转化成输出流的程序。 2、分区 Samza的流数据单位一条条消息。Storm中的元组,Spark Streaming中的DStream。 Samza中的每个流都被分割成一个或多个分区,对于流里的每一个分区而言,都是一个有序的消息序列,后续 阅读全文

posted @ 2017-08-12 16:39 ostin 阅读(154) 评论(0) 推荐(0)

Spark Streaming(下)--实时流计算Spark Streaming实战
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、实例演示 1.1 流数据模拟器 1.1.1 流数据说明 在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听 阅读全文

posted @ 2017-08-05 21:45 ostin 阅读(411) 评论(0) 推荐(0)

Spark Streaming(上)--实时流计算Spark Streaming原理介绍
摘要:1、Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从 阅读全文

posted @ 2017-08-05 21:37 ostin 阅读(380) 评论(0) 推荐(0)

Spark Streaming实时计算框架介绍--包含Spark Streaming到Spark批处理任务的转换过程
摘要:随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处 阅读全文

posted @ 2017-08-05 21:32 ostin 阅读(671) 评论(0) 推荐(0)

Spark Streaming
摘要:一、Spark Streaming设计 Spark Streaming可整合多种输入数据源,如Kafka(多框架产品信息交换)、Flume(日志采集系统)、HDFS,TCP套接字。经处理后的数据可存储至文件系统、数据库,或显示在仪表盘里。 1、Spark Streaming的基本原理 Spark S 阅读全文

posted @ 2017-08-05 21:15 ostin 阅读(208) 评论(0) 推荐(0)

序列化和反序列化
摘要:序列化 JAVA中的概念,普通类型、对象实例存储和网络传输都要转换为字节流,即序列化过程。读取数据或网络接收到数据都要反序列化,即把字节流还原为真实类型。 序列化 (Serialization)将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间,对象将其当前状态写入到临时或持久性存储区。 阅读全文

posted @ 2017-08-02 22:28 ostin 阅读(124) 评论(0) 推荐(0)

理解Storm并发
摘要:理解Storm并发 作者:Jack47 PS:如果喜欢我写的文章,欢迎关注我的微信公众账号程序员杰克,两边的文章会同步,也可以添加我的RSS订阅源。 注:本文主要内容翻译自understanding-the-parallelism-of-a-storm-topology 本篇文章介绍了Storm拓扑 阅读全文

posted @ 2017-08-02 22:10 ostin 阅读(172) 评论(0) 推荐(0)

Storm介绍(二)
摘要:Storm介绍(二) 作者:Jack47 转载请保留作者和原文出处 欢迎关注我的微信公众账号程序员杰克,两边的文章会同步,也可以添加我的RSS订阅源。 本文是Storm系列之一,主要介绍Storm的架构设计,推荐读者在阅读Storm介绍(一)的基础之上,阅读这一篇。本文只是作者的读书笔记,偏重于浅层 阅读全文

posted @ 2017-08-02 22:07 ostin 阅读(131) 评论(0) 推荐(0)

Storm介绍(一)
摘要:Storm介绍(一) 作者:Jack47 PS:如果喜欢我写的文章,欢迎关注我的微信公众账号程序员杰克,两边的文章会同步,也可以添加我的RSS订阅源。 内容简介 本文是Storm系列之一,介绍了Storm的起源,Storm作者的八卦,Storm的特点和Storm模型的基本原理,着重介绍了Storm中 阅读全文

posted @ 2017-08-02 22:05 ostin 阅读(114) 评论(0) 推荐(0)

Storm内部的消息传递机制
摘要:Storm内部的消息传递机制 作者:Jack47 转载请保留作者和原文出处 欢迎关注我的微信公众账号程序员杰克,两边的文章会同步,也可以添加我的RSS订阅源。 一个Storm拓扑,就是一个复杂的多阶段的流式计算。Storm中的组件(Component)就是对各个阶段的一个抽象,其中的Spout是生产 阅读全文

posted @ 2017-08-01 23:08 ostin 阅读(132) 评论(0) 推荐(0)

Storm序列化
摘要:序列化 本文阐述了 Storm 0.6.0 以上版本的序列化机制。在低于 0.6.0 版本的 Storm 中使用了另一种序列化系统,详细信息可以参考 Serialization (prior to 0.6.0) 一文。 Storm 中的 tuple 可以包含任何类型的对象。由于 Storm 是一个分 阅读全文

posted @ 2017-08-01 22:50 ostin 阅读(94) 评论(0) 推荐(0)

开源流计算框架Storm
摘要:一、Storm简介 批处理系统关注吞吐率,流处理系统关注延时 Storm可以简单、高效、可靠地处理流数据,并支持多种编程语言 Storm框架可以方便地与数据库系统进行整合,从而开发出强大的实时计算系统 Twitter是全球访问量最大的社交网站之一,Twitter开发Storm流处理框架也是为了应对其 阅读全文

posted @ 2017-07-29 19:57 ostin 阅读(841) 评论(0) 推荐(0)

流计算处理流程
摘要:一、数据处理流程 1、传统数据处理 传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中,之后由用户通过查询操作和数据管理系统进行交互 传统的数据处理流程隐含了两个前提:(1)存储的数据是旧的。存储的静态数据是过去某一时刻的快照,这些数据在查询时可能已不具备时效性了(2)需要用户主动 阅读全文

posted @ 2017-07-29 17:00 ostin 阅读(3467) 评论(1) 推荐(0)

流计算概述
摘要:一、静态数据和流数据 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息 近年来,在Web应用、网络监控(电子商务用户点击流)、传 阅读全文

posted @ 2017-07-29 15:49 ostin 阅读(8023) 评论(0) 推荐(0)

数据分析、数据挖掘、数据统计、OLAP 之间的差异
摘要:作者:孙文亮 链接:https://www.zhihu.com/question/19653226/answer/12592187来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 我觉得前数据分析、数据挖掘、数据统计正好是广义数据分析的三个方向: 1、数据分析。 数据分 阅读全文

posted @ 2017-07-29 15:33 ostin 阅读(371) 评论(0) 推荐(0)