3. 架构与抽象

摘要:Spark Streaming使用“微批次”的架构,把流式计算当作一系列连续的小规模批处理来对待。Spark Streaming从各种输入源中读取数据,并把数据分组为小的批次新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候,一个新的批次就创建出来,在该区间内收到的数据都会被添加到这个批次中 阅读全文
posted @ 2019-09-21 05:38 铖歌 阅读 (4) 评论 (0) 编辑

2. 运行Spark Streaming

摘要:2.1 IDEA编写程序 Pom.xml加入以下依赖: 案例如下: 按照Spark Core中的方式进行打包,并将程序上传到Spark机器。并运行: 通过Netcat发送数据: 如果程序运行时,log日志太多,可以将spark conf目录下的log4j文件里面的日志级别改成WARN 阅读全文
posted @ 2019-09-14 22:25 铖歌 阅读 (3) 评论 (0) 编辑

1. Spark Streaming概述

摘要:1.1 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitt 阅读全文
posted @ 2019-09-04 04:03 铖歌 阅读 (9) 评论 (0) 编辑

8. 数据仓库的建设

摘要:8.1 什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业级所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制 数据仓库能干什么 阅读全文
posted @ 2019-08-20 23:46 铖歌 阅读 (16) 评论 (0) 编辑

7. Spark SQL的运行原理

摘要:7.1 Spark SQL运行架构 Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树,然后使用规则(Rule)对Tree进行绑定、优化等处理过程。Spark SQL由Core、Catalyst、Hive、Hiv 阅读全文
posted @ 2019-08-01 17:00 铖歌 阅读 (20) 评论 (0) 编辑

6. 运行Spark SQL CLI

摘要:Spark SQL CLI可以很方便的在本地运行Hive元数据服务以及从命令行执行任务查询。需要注意的是,Spark SQL CLI不能与Thrift JDBC服务交互。在Spark目录下执行如下命令启动Spark SQL CLI: ./bin/spark-sql 配置Hive需要替换conf/下的 阅读全文
posted @ 2019-07-30 08:38 铖歌 阅读 (12) 评论 (0) 编辑

5. JDBC/ODBC服务器

摘要:Spark SQL也提供JDBC连接支持,这对于让商业智能(BI)工具连接到Spark集群上以及在多用户间共享一个集群的场景都非常有用。JDBC服务器作为一个独立的Spark驱动器程序运行,可以在多用户之间共享。任意一个客户端都可以在内存中缓存数据表,对表进行查询。集群的资源以及缓存数据都在所有用户 阅读全文
posted @ 2019-07-29 14:26 铖歌 阅读 (9) 评论 (0) 编辑

4. Spark SQL数据源

摘要:4.1 通用加载/保存方法 4.1.1手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询 Spark SQL的默认数据源 阅读全文
posted @ 2019-07-26 09:12 铖歌 阅读 (19) 评论 (0) 编辑

3. Spark SQL解析

摘要:3.1 新的起始点SparkSession 在老的版本中,SparkSQL提供两种SQL查询起始点,一个叫SQLContext,用于Spark自己提供的SQL查询,一个叫HiveContext,用于连接Hive的查询,SparkSession是Spark最新的SQL查询起始点,实质上是SQLCote 阅读全文
posted @ 2019-07-22 08:07 铖歌 阅读 (20) 评论 (0) 编辑

2. 执行Spark SQL查询

摘要:2.1 命令行查询流程 打开Spark shell 例子:查询大于21岁的用户 创建如下JSON文件,注意JSON的格式: 2.2 IDEA创建Spark SQL程序 IDEA中程序的打包和运行方式都和SparkCore类似,Maven依赖中需要添加新的依赖项: 程序如下: 阅读全文
posted @ 2019-07-19 11:14 铖歌 阅读 (37) 评论 (0) 编辑

统计