随笔分类 - Spark
Apache Spark is a unified analytics engine for large-scale data processing.
Spark是用于大规模数据处理的统一分析引擎。
是基于内存计算的大数据分布式计算框架。
摘要:@Testdef functionTest() = { Logger.getLogger("org").setLevel(Level.WARN) val spark = getSpark("functionTest") val sc = spark.sparkContext import spark
阅读全文
摘要:import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.hive.HiveContextimport org.apache.spar
阅读全文
摘要:一、流式DataFrames/Datasets的结构类型推断与划分 ◆ 默认情况下,基于文件源的结构化流要求必须指定schema,这种限制确保即 使在失败的情况下也会使用一致的模式来进行流查询。 ◆ 对于特殊用例,可以通过设置spark.sql.streaming.schemaInference =
阅读全文
摘要:StructuredStreaming简单的例子(NewAPI)(wordCount)
阅读全文
摘要:使用流式DataSets和流式DataFrames的API
流式DataFrames/Datasets的结构类型推断与划分
阅读全文
摘要:◆ 基本概念 ◆ 处理Event-time和Late Data ◆ 容错语义
阅读全文
摘要:SparkStreaming简单例子 ◆ 构建第一个Streaming程序: (wordCount) ◆ Spark Streaming 程序最好以使用Maven或者sbt编译出来的独立应用的形式运行。 ◆ 准备工作: 1.引入Spark Streaming的jar 2.scala流计算import
阅读全文
摘要:SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。➢ 计算流程➢ 容错性➢ 实
阅读全文
摘要:Storm与SparkStreaming对比
阅读全文
摘要:DStream(Discretized Stream)离散流 ◆ 和Spark基于RDD的概念很相似,Spark Streaming使用离散流 (discretized stream)作为抽象表示,叫做DStream。 ◆ DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收 到的数
阅读全文
摘要:Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。 ◆ 支持从多种数据源获取数据,包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、red
阅读全文
摘要:SparkStreaming支持的业务场景
初识流计算例子
阅读全文
摘要:第8章 Spark SQL实战 8.1 数据说明 数据集是货品交易数据集。 每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价。 8.2 加载数据 tbStock: tbStockDetail: tbDate: 注册表: 8.3 计算所有订单中每年的销售单数、销售总额 统计所
阅读全文
摘要:第7章 Spark SQL 的运行原理(了解) 7.1 Spark SQL运行架构 Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树,然后使用规则(Rule)对Tree进行绑定、优化等处理过程。Spark SQ
阅读全文
摘要:第6章 运行Spark SQL CLI Spark SQL CLI可以很方便的在本地运行Hive元数据服务以及从命令行执行查询任务。需要注意的是,Spark SQL CLI不能与Thrift JDBC服务交互。在Spark目录下执行如下命令启动Spark SQL CLI: ./bin/spark-s
阅读全文
摘要:第5章 JDBC/ODBC服务器 Spark SQL也提供JDBC连接支持,这对于让商业智能(BI)工具连接到Spark集群上以 及在多用户间共享一个集群的场景都非常有用。JDBC 服务器作为一个独立的 Spark 驱动 器程序运行,可以在多用户之间共享。任意一个客户端都可以在内存中缓存数据表,对表
阅读全文
摘要:第4章 SparkSQL数据源 4.1 通用加载/保存方法 4.1.1 手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查
阅读全文
摘要:第3章 SparkSQL解析 3.1 新的起始点SparkSession 在老的版本中,SparkSQL提供两种SQL查询起始点,一个叫SQLContext,用于Spark自己提供的SQL查询,一个叫HiveContext,用于连接Hive的查询,SparkSession是Spark最新的SQL查询
阅读全文
摘要:第2章 执行SparkSQL查询 2.1 命令行查询流程 打开Spark shell 例子:查询大于30岁的用户 创建如下JSON文件,注意JSON的格式: {"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19}
阅读全文
摘要:第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Hive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写Map
阅读全文

浙公网安备 33010602011771号