上一页 1 ··· 7 8 9 10 11 12 13 14 15 下一页
摘要: 安装并启动Kafka 1.下载最新版Kafka(当前为kafka_2.12-2.3.0)并解压: > wget http://mirror.bit.edu.cn/apache/kafka/2.3.0/kafka_2.12-2.3.0.tgz > tar zxvf kafka_2.12-2.3.0.t 阅读全文
posted @ 2019-08-06 18:29 ZacksTang 阅读(398) 评论(0) 推荐(0)
摘要: Apache Kafka 1. Kafka简介、优势、以及使用场景 Kafka的优势: 开源 分布式,弹性架构,fault tolerant 水平扩展: 可以扩展到100个brokers 可以扩展到每秒百万级条消息 高性能(延迟少于10ms)-- 实时 使用场景: 消息系统 活动追踪(Activit 阅读全文
posted @ 2019-08-06 17:45 ZacksTang 阅读(728) 评论(1) 推荐(0)
摘要: 1. Airflow Airflow是一个调度、监控工作流的平台。用于将一个工作流制定为一组任务的有向无环图(DAG),并指派到一组计算节点上,根据相互之间的依赖关系,有序执行。 2. 安装 pip安装airflow: pip3 install apache-airflow 初始化db: airfl 阅读全文
posted @ 2019-06-25 13:31 ZacksTang 阅读(4687) 评论(0) 推荐(0)
摘要: Normal 0 false false false false EN-US ZH-CN X-NONE 1. DataFrames,Datasets,与SparkSQL Spark SQL 以及它的 DataFrames和Datasets 接口是Spark性能的未来,它们提供了更高效的存储选择,高级 阅读全文
posted @ 2019-06-12 14:21 ZacksTang 阅读(639) 评论(0) 推荐(0)
摘要: 避免使用GroupByKey 我们看一下两种计算word counts 的方法,一个使用reduceByKey,另一个使用 groupByKey: val words = Array("one", "two", "two", "three", "three", "three") val wordPa 阅读全文
posted @ 2019-06-08 15:05 ZacksTang 阅读(1577) 评论(0) 推荐(1)
摘要: Spark 允许用户为driver(或主节点)编写运行在计算集群上,并行处理数据的程序。在Spark中,它使用RDDs代表大型的数据集,RDDs是一组不可变的分布式的对象的集合,存储在executors中(或从节点)。组成RDDs的对象称为partitions,并可能(但是也不是必须的)在分布式系统 阅读全文
posted @ 2019-06-07 15:48 ZacksTang 阅读(2927) 评论(0) 推荐(0)
摘要: 3. 事件-时间(Event-Time)处理 在“时间语义”中,我们强调了在流处理应用中时间语义的重要性,并解释了处理时间与事件时间的不同点。处理时间较好理解,因为它基于本地机器的时间,它产生的是有点任意的、不一致的、以及无法复现的结果。而事件时间的语义产生的是可复现的、一致性的结果,它对于很多流处 阅读全文
posted @ 2019-05-30 20:36 ZacksTang 阅读(8327) 评论(0) 推荐(1)
摘要: 2. Flink中的数据传输 在一个运行的application中,它的tasks在持续交换数据。TaskManager负责做数据传输。TaskManager的网络组件首先从缓冲buffer中收集records,然后再发送。也就是说,records并不是一个接一个的发送,而是先放入缓冲,然后再以ba 阅读全文
posted @ 2019-05-30 15:04 ZacksTang 阅读(3917) 评论(0) 推荐(0)
摘要: 1. Hive文件与记录格式 Create table 有多种用法,例如STORED AS SEQUENCEFILE, ROW FORMAT DELIMITED, SERDE, INPUTFORMAT, OUTPUTFORMAT 这些语法。 某些语法是其他语法的快捷用法,例如: 语法 STORED 阅读全文
posted @ 2019-05-28 20:36 ZacksTang 阅读(2810) 评论(0) 推荐(0)
摘要: 1. 系统架构 Flink是一个分布式系统,用于有状态的并行数据流处理。也就是说,Flink会分布式地运行在多个机器上。在分布式系统中,常见的挑战有:如何对集群中的资源进行分配与管理、协调进程、数据存储的高可用、以及异常恢复。 Flink自身并未实现这些功能,而仅关注在它自身的核心功能 - 分布式数 阅读全文
posted @ 2019-05-27 20:01 ZacksTang 阅读(3863) 评论(0) 推荐(0)
上一页 1 ··· 7 8 9 10 11 12 13 14 15 下一页