随笔分类 -  Spark

Apache Spark is a unified analytics engine for large-scale data processing. Spark是用于大规模数据处理的统一分析引擎。 是基于内存计算的大数据分布式计算框架。
摘要:@Testdef functionTest() = { Logger.getLogger("org").setLevel(Level.WARN) val spark = getSpark("functionTest") val sc = spark.sparkContext import spark 阅读全文
posted @ 2019-08-26 10:10 DiYong 阅读(1269) 评论(0) 推荐(0)
摘要:import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.hive.HiveContextimport org.apache.spar 阅读全文
posted @ 2019-08-26 10:03 DiYong 阅读(557) 评论(0) 推荐(0)
摘要:一、流式DataFrames/Datasets的结构类型推断与划分 ◆ 默认情况下,基于文件源的结构化流要求必须指定schema,这种限制确保即 使在失败的情况下也会使用一致的模式来进行流查询。 ◆ 对于特殊用例,可以通过设置spark.sql.streaming.schemaInference = 阅读全文
posted @ 2019-08-23 09:16 DiYong 阅读(1181) 评论(0) 推荐(0)
摘要:StructuredStreaming简单的例子(NewAPI)(wordCount) 阅读全文
posted @ 2019-08-22 16:21 DiYong 阅读(578) 评论(0) 推荐(0)
摘要:使用流式DataSets和流式DataFrames的API 流式DataFrames/Datasets的结构类型推断与划分 阅读全文
posted @ 2019-08-22 14:47 DiYong 阅读(349) 评论(0) 推荐(0)
摘要:◆ 基本概念 ◆ 处理Event-time和Late Data ◆ 容错语义 阅读全文
posted @ 2019-08-22 12:24 DiYong 阅读(233) 评论(0) 推荐(0)
摘要:SparkStreaming简单例子 ◆ 构建第一个Streaming程序: (wordCount) ◆ Spark Streaming 程序最好以使用Maven或者sbt编译出来的独立应用的形式运行。 ◆ 准备工作: 1.引入Spark Streaming的jar 2.scala流计算import 阅读全文
posted @ 2019-08-22 00:17 DiYong 阅读(399) 评论(0) 推荐(0)
摘要:SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。➢ 计算流程➢ 容错性➢ 实 阅读全文
posted @ 2019-08-21 16:11 DiYong 阅读(178) 评论(0) 推荐(0)
摘要:Storm与SparkStreaming对比 阅读全文
posted @ 2019-08-21 16:06 DiYong 阅读(270) 评论(0) 推荐(0)
摘要:DStream(Discretized Stream)离散流 ◆ 和Spark基于RDD的概念很相似,Spark Streaming使用离散流 (discretized stream)作为抽象表示,叫做DStream。 ◆ DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收 到的数 阅读全文
posted @ 2019-08-21 16:00 DiYong 阅读(546) 评论(0) 推荐(0)
摘要:Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。 ◆ 支持从多种数据源获取数据,包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、red 阅读全文
posted @ 2019-08-21 15:41 DiYong 阅读(193) 评论(0) 推荐(0)
摘要:SparkStreaming支持的业务场景 初识流计算例子 阅读全文
posted @ 2019-08-21 13:56 DiYong 阅读(604) 评论(0) 推荐(0)
摘要:第8章 Spark SQL实战 8.1 数据说明 数据集是货品交易数据集。 每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价。 8.2 加载数据 tbStock: tbStockDetail: tbDate: 注册表: 8.3 计算所有订单中每年的销售单数、销售总额 统计所 阅读全文
posted @ 2019-08-12 22:31 DiYong 阅读(1083) 评论(0) 推荐(0)
摘要:第7章 Spark SQL 的运行原理(了解) 7.1 Spark SQL运行架构 Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树,然后使用规则(Rule)对Tree进行绑定、优化等处理过程。Spark SQ 阅读全文
posted @ 2019-08-12 22:21 DiYong 阅读(958) 评论(0) 推荐(0)
摘要:第6章 运行Spark SQL CLI Spark SQL CLI可以很方便的在本地运行Hive元数据服务以及从命令行执行查询任务。需要注意的是,Spark SQL CLI不能与Thrift JDBC服务交互。在Spark目录下执行如下命令启动Spark SQL CLI: ./bin/spark-s 阅读全文
posted @ 2019-08-12 22:18 DiYong 阅读(267) 评论(0) 推荐(0)
摘要:第5章 JDBC/ODBC服务器 Spark SQL也提供JDBC连接支持,这对于让商业智能(BI)工具连接到Spark集群上以 及在多用户间共享一个集群的场景都非常有用。JDBC 服务器作为一个独立的 Spark 驱动 器程序运行,可以在多用户之间共享。任意一个客户端都可以在内存中缓存数据表,对表 阅读全文
posted @ 2019-08-12 22:17 DiYong 阅读(438) 评论(0) 推荐(0)
摘要:第4章 SparkSQL数据源 4.1 通用加载/保存方法 4.1.1 手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查 阅读全文
posted @ 2019-08-12 22:09 DiYong 阅读(439) 评论(0) 推荐(0)
摘要:第3章 SparkSQL解析 3.1 新的起始点SparkSession 在老的版本中,SparkSQL提供两种SQL查询起始点,一个叫SQLContext,用于Spark自己提供的SQL查询,一个叫HiveContext,用于连接Hive的查询,SparkSession是Spark最新的SQL查询 阅读全文
posted @ 2019-08-12 21:53 DiYong 阅读(353) 评论(0) 推荐(0)
摘要:第2章 执行SparkSQL查询 2.1 命令行查询流程 打开Spark shell 例子:查询大于30岁的用户 创建如下JSON文件,注意JSON的格式: {"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19} 阅读全文
posted @ 2019-08-12 20:37 DiYong 阅读(279) 评论(0) 推荐(0)
摘要:第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Hive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写Map 阅读全文
posted @ 2019-08-12 20:23 DiYong 阅读(394) 评论(0) 推荐(0)