Spark - 随笔分类 - DiYong

SparkSQL DSL 随便写写

摘要：@Testdef functionTest() = { Logger.getLogger("org").setLevel(Level.WARN) val spark = getSpark("functionTest") val sc = spark.sparkContext import spark 阅读全文

posted @ 2019-08-26 10:10 DiYong 阅读(1269) 评论(0) 推荐(0)

SparkSQL DSL开发（Old）

摘要：import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.hive.HiveContextimport org.apache.spar 阅读全文

posted @ 2019-08-26 10:03 DiYong 阅读(557) 评论(0) 推荐(0)

StructuredStreaming基础操作和窗口操作

摘要：一、流式DataFrames/Datasets的结构类型推断与划分 ◆ 默认情况下，基于文件源的结构化流要求必须指定schema，这种限制确保即使在失败的情况下也会使用一致的模式来进行流查询。 ◆ 对于特殊用例，可以通过设置spark.sql.streaming.schemaInference = 阅读全文

posted @ 2019-08-23 09:16 DiYong 阅读(1181) 评论(0) 推荐(0)

StructuredStreaming简单的例子（NewAPI）

摘要：StructuredStreaming简单的例子（NewAPI）（wordCount）阅读全文

posted @ 2019-08-22 16:21 DiYong 阅读(578) 评论(0) 推荐(0)

StructuredStreaming(New)

摘要：使用流式DataSets和流式DataFrames的API 流式DataFrames/Datasets的结构类型推断与划分阅读全文

posted @ 2019-08-22 14:47 DiYong 阅读(349) 评论(0) 推荐(0)

StructuredStreaming编程模型

摘要：◆ 基本概念 ◆ 处理Event-time和Late Data ◆ 容错语义阅读全文

posted @ 2019-08-22 12:24 DiYong 阅读(233) 评论(0) 推荐(0)

SparkStreaming简单例子（oldAPI）

摘要：SparkStreaming简单例子 ◆ 构建第一个Streaming程序：　（wordCount） ◆ Spark Streaming 程序最好以使用Maven或者sbt编译出来的独立应用的形式运行。 ◆ 准备工作： 1.引入Spark Streaming的jar 2.scala流计算import 阅读全文

posted @ 2019-08-22 00:17 DiYong 阅读(399) 评论(0) 推荐(0)

SparkStreaming架构

摘要：SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统，可以对多种数据源（如Kdfka、Flume、Twitter、Zero和TCP 套接字）进行类似Map、Reduce和Join等复杂操作，并将结果保存到外部文件系统、数据库或应用到实时仪表盘。➢ 计算流程➢ 容错性➢ 实阅读全文

posted @ 2019-08-21 16:11 DiYong 阅读(178) 评论(0) 推荐(0)

Storm与SparkStreaming对比

摘要：Storm与SparkStreaming对比阅读全文

posted @ 2019-08-21 16:06 DiYong 阅读(270) 评论(0) 推荐(0)

SparkStreaming-DStream（Discretized Stream）

摘要：DStream（Discretized Stream）离散流 ◆ 和Spark基于RDD的概念很相似，Spark Streaming使用离散流（discretized stream）作为抽象表示，叫做DStream。 ◆ DStream是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数阅读全文

posted @ 2019-08-21 16:00 DiYong 阅读(546) 评论(0) 推荐(0)

SparkStreaming概述

摘要：Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。 ◆ 支持从多种数据源获取数据，包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、red 阅读全文

posted @ 2019-08-21 15:41 DiYong 阅读(193) 评论(0) 推荐(0)

SparkStreaming支持的业务场景

摘要：SparkStreaming支持的业务场景初识流计算例子阅读全文

posted @ 2019-08-21 13:56 DiYong 阅读(604) 评论(0) 推荐(0)

第8章 Spark SQL实战

摘要：第8章 Spark SQL实战 8.1 数据说明数据集是货品交易数据集。每个订单可能包含多个货品，每个订单可以产生多次交易，不同的货品有不同的单价。 8.2 加载数据 tbStock： tbStockDetail: tbDate: 注册表： 8.3 计算所有订单中每年的销售单数、销售总额统计所阅读全文

posted @ 2019-08-12 22:31 DiYong 阅读(1083) 评论(0) 推荐(0)

第7章 Spark SQL 的运行原理（了解）

摘要：第7章 Spark SQL 的运行原理（了解） 7.1 Spark SQL运行架构 Spark SQL对SQL语句的处理和关系型数据库类似，即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树，然后使用规则(Rule)对Tree进行绑定、优化等处理过程。Spark SQ 阅读全文

posted @ 2019-08-12 22:21 DiYong 阅读(958) 评论(0) 推荐(0)

第6章运行Spark SQL CLI

摘要：第6章运行Spark SQL CLI Spark SQL CLI可以很方便的在本地运行Hive元数据服务以及从命令行执行查询任务。需要注意的是，Spark SQL CLI不能与Thrift JDBC服务交互。在Spark目录下执行如下命令启动Spark SQL CLI： ./bin/spark-s 阅读全文

posted @ 2019-08-12 22:18 DiYong 阅读(267) 评论(0) 推荐(0)

第5章 JDBC/ODBC服务器

摘要：第5章 JDBC/ODBC服务器 Spark SQL也提供JDBC连接支持，这对于让商业智能(BI)工具连接到Spark集群上以及在多用户间共享一个集群的场景都非常有用。JDBC 服务器作为一个独立的 Spark 驱动器程序运行，可以在多用户之间共享。任意一个客户端都可以在内存中缓存数据表，对表阅读全文

posted @ 2019-08-12 22:17 DiYong 阅读(438) 评论(0) 推荐(0)

第4章 SparkSQL数据源

摘要：第4章 SparkSQL数据源 4.1 通用加载/保存方法 4.1.1 手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查阅读全文

posted @ 2019-08-12 22:09 DiYong 阅读(439) 评论(0) 推荐(0)

第3章 SparkSQL解析

摘要：第3章 SparkSQL解析 3.1 新的起始点SparkSession 在老的版本中，SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext，用于连接Hive的查询，SparkSession是Spark最新的SQL查询阅读全文

posted @ 2019-08-12 21:53 DiYong 阅读(353) 评论(0) 推荐(0)

第2章执行SparkSQL查询

摘要：第2章执行SparkSQL查询 2.1 命令行查询流程打开Spark shell 例子：查询大于30岁的用户创建如下JSON文件，注意JSON的格式： {"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19} 阅读全文

posted @ 2019-08-12 20:37 DiYong 阅读(279) 评论(0) 推荐(0)

第1章 Spark SQL概述

摘要：第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Hive是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写Map 阅读全文

posted @ 2019-08-12 20:23 DiYong 阅读(394) 评论(0) 推荐(0)

Diyo

随笔分类 - Spark

公告