上一页 1 ··· 3 4 5 6 7 8 9 10 下一页
摘要: 1. 执行器服务 ExecutorService java.util.concurrent.ExecutorService 接口表示一个异步执行机制,使我们能够在后台执行任务。因此一个 ExecutorService 很类似于一个线程池。实际上,存在于 java.util.concurrent 包里 阅读全文
posted @ 2019-01-17 18:29 吊车尾88 阅读(2015) 评论(0) 推荐(0)
摘要: Catalog API简介 Spark中的DataSet和Dataframe API支持结构化分析。结构化分析的一个重要的方面是管理元数据。这些元数据可能是一些临时元数据(比如临时表)、SQLContext上注册的UDF以及持久化的元数据(比如Hivemeta store或者HCatalog)。 S 阅读全文
posted @ 2019-01-17 13:18 吊车尾88 阅读(2790) 评论(0) 推荐(0)
摘要: UDAF简介 UDAF(User Defined Aggregate Function)即用户定义的聚合函数,聚合函数和普通函数的区别是什么呢,普通函数是接受一行输入产生一个输出,聚合函数是接受一组(一般是多行)输入然后产生一个输出,即将一组的值想办法聚合一下。 UDAF的误区 我们可能下意识的认为 阅读全文
posted @ 2019-01-17 10:15 吊车尾88 阅读(4999) 评论(0) 推荐(0)
摘要: 前言 本文介绍如何在Spark Sql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(Spark2.x)完整的代码示例。 关于UDF:UDF:User Defined Function,用户自定义函数 创建测 阅读全文
posted @ 2019-01-17 09:53 吊车尾88 阅读(14110) 评论(0) 推荐(0)
摘要: 模式匹配的类型 包括: 常量模式 变量模式 构造器模式 序列模式 元组模式 变量绑定模式等。 常量模式匹配 常量模式匹配,就是在模式匹配中匹配常量 变量匹配 变量匹配,匹的是case语句后面接的是scala变量,如case x if(x == 5) => x等,在使用时一般会加守卫条件,当然也可以像 阅读全文
posted @ 2019-01-16 10:08 吊车尾88 阅读(1544) 评论(0) 推荐(0)
摘要: 1、在内存中缓存数据 性能调优主要是将数据放入内存中操作,spark缓存注册表的方法 版本 缓存 释放缓存 spark2.+ spark.catalog.cacheTable("tableName")缓存表 spark.catalog.uncacheTable("tableName")解除缓存 sp 阅读全文
posted @ 2019-01-12 20:53 吊车尾88 阅读(4243) 评论(1) 推荐(1)
摘要: 本文针对spark 2.0+版本 概述 spark 提供了一系列整个任务生命周期中各个阶段变化的事件监听机制,通过这一机制可以在任务的各个阶段做一些自定义的各种动作。SparkListener便是这些阶段的事件监听接口类 通过实现这个类中的各种方法便可实现自定义的事件处理动作。 自定义示例代码 主函 阅读全文
posted @ 2019-01-11 10:24 吊车尾88 阅读(4461) 评论(0) 推荐(0)
摘要: 在讲解 createOrReplaceTempView 和createGlobalTempView的区别前,先了解下Spark Application 和 Spark Session区别 Spark Application Spark Application 使用: 针对单个批处理作业 多个job通 阅读全文
posted @ 2019-01-10 19:09 吊车尾88 阅读(31422) 评论(1) 推荐(3)
摘要: spark 1.6 创建语句 在Spark1.6中我们使用的叫Hive on spark,主要是依赖hive生成spark程序,有两个核心组件SQLcontext和HiveContext。 这是Spark 1.x 版本的语法 而Spark2.0中我们使用的就是sparkSQL,是后继的全新产品,解除 阅读全文
posted @ 2019-01-10 18:22 吊车尾88 阅读(7569) 评论(0) 推荐(1)
摘要: 第一种方式:打包到jar应用程序 操作:将第三方jar文件打包到最终形成的spark应用程序jar文件中 应用场景:第三方jar文件比较小,应用的地方比较少 第二种方式:spark-submit 参数 --jars 操作:使用spark-submit提交命令的参数: --jars 要求: 1、使用s 阅读全文
posted @ 2019-01-10 14:07 吊车尾88 阅读(11720) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7 8 9 10 下一页