05-spark streaming & kafka
摘要:1、如何消费已经被消费过的数据? 答:采用不同的group 2、如何自定义去消费已经消费过的数据? Conosumer.properties配置文件中有两个重要参数 auto.commit.enable:如果为true,则consumer的消费偏移offset会被记录到zookeeper。下次con
阅读全文
posted @
2019-03-27 08:54
李昊宗
阅读(603)
推荐(0)
04-spark streaming
摘要:1、基本概念(了解) ①流(Streaming): 是一种数据传送技术,它把客户机收到的数据变成一个稳定连续的流,源源不断地送出,使用户听到的声音或看到的图象十分平稳, 而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。 ②常见的流式计算框架 Apache Storm Spark Streami
阅读全文
posted @
2019-03-26 11:39
李昊宗
阅读(305)
推荐(1)
03-spark kafka
摘要:1、概念 Kafka是一个开源的消息系统。由Scala编写,它具备以下特点: ①消息持久化: 为了从大数据中获取有价值的信息,任何信息的丢失都是负担不起的。使用Kafka时,message会被存储并且会被复制(zk备份)以防止数据丢失。 ②高吞吐量: 设计是工作在普通的硬件设施上多个客户端能够每秒处
阅读全文
posted @
2019-03-25 12:57
李昊宗
阅读(368)
推荐(0)
02-spark sql
摘要:1、概念 Spark SQL是一个用来处理结构化数据的Spark组件。 优点: ①SparkSQL是一个SQL解析引擎,将SQL解析成特殊的RDD(DataFrame),然后在Spark集群中运行 ②SparkSQL是用来处理结构化数据的(先将非结构化的数据转换成结构化数据) ③SparkSQL支持
阅读全文
posted @
2019-03-24 09:21
李昊宗
阅读(351)
推荐(1)
01-spark基础
摘要:1、定义 Spark是一个由scala语言编写的实时计算系统 Spark支持的API包括Scala、Python、Java 、R 2、功能 Spark Core: 将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。 是Spar
阅读全文
posted @
2019-03-23 14:02
李昊宗
阅读(274)
推荐(1)