4-spark - 随笔分类 - 李昊宗

05-spark streaming & kafka

摘要：1、如何消费已经被消费过的数据？答：采用不同的group 2、如何自定义去消费已经消费过的数据？ Conosumer.properties配置文件中有两个重要参数 auto.commit.enable：如果为true，则consumer的消费偏移offset会被记录到zookeeper。下次con 阅读全文

posted @ 2019-03-27 08:54 李昊宗阅读(608) 评论(0) 推荐(0)

04-spark streaming

摘要：1、基本概念（了解） ①流（Streaming）：是一种数据传送技术，它把客户机收到的数据变成一个稳定连续的流，源源不断地送出，使用户听到的声音或看到的图象十分平稳，而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。 ②常见的流式计算框架 Apache Storm Spark Streami 阅读全文

posted @ 2019-03-26 11:39 李昊宗阅读(310) 评论(0) 推荐(1)

03-spark kafka

摘要：1、概念 Kafka是一个开源的消息系统。由Scala编写，它具备以下特点： ①消息持久化：为了从大数据中获取有价值的信息，任何信息的丢失都是负担不起的。使用Kafka时，message会被存储并且会被复制（zk备份）以防止数据丢失。 ②高吞吐量：设计是工作在普通的硬件设施上多个客户端能够每秒处阅读全文

posted @ 2019-03-25 12:57 李昊宗阅读(372) 评论(0) 推荐(0)

02-spark sql

摘要：1、概念 Spark SQL是一个用来处理结构化数据的Spark组件。优点： ①SparkSQL是一个SQL解析引擎，将SQL解析成特殊的RDD（DataFrame），然后在Spark集群中运行 ②SparkSQL是用来处理结构化数据的（先将非结构化的数据转换成结构化数据） ③SparkSQL支持阅读全文

posted @ 2019-03-24 09:21 李昊宗阅读(353) 评论(0) 推荐(1)

01-spark基础

摘要：1、定义 Spark是一个由scala语言编写的实时计算系统 Spark支持的API包括Scala、Python、Java 、R 2、功能 Spark Core：将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。是Spar 阅读全文

posted @ 2019-03-23 14:02 李昊宗阅读(278) 评论(0) 推荐(1)

随笔分类 - 4-spark