06 2019 档案

摘要:正文 一,简介 1.1 概述 是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理.Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twit 阅读全文
posted @ 2019-06-12 11:27 他山之石·玉 阅读(3819) 评论(0) 推荐(1)
摘要:正文 一,简介 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据 阅读全文
posted @ 2019-06-11 19:23 他山之石·玉 阅读(319) 评论(0) 推荐(0)
摘要:正文 一,简介 跟hive没太的关系,就是使用了hive的标准(HQL, 元数据库、UDF、序列化、反序列化机制)。Hive On Spark 使用RDD(DataFrame),然后运行在spark 集群上。 二,shell方式配置和使用hive元数据信息 2.1 文件配置 配置和hive的配置一致 阅读全文
posted @ 2019-06-11 16:59 他山之石·玉 阅读(3083) 评论(0) 推荐(0)
摘要:正文 一,简介 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于J 阅读全文
posted @ 2019-06-11 15:56 他山之石·玉 阅读(767) 评论(0) 推荐(1)
摘要:一,简介 二,SparkSQL 的函数自定义 2.1 函数定义 2.2 函数注册 2.3 示例 三,spark的数据源读取 3.1 JSON 3.2 JDBC 3.3 ParQuet 3.4 CSV 正文 一,简介 很多时候sql中的内置函数无法满足我们的日常开发需求,这就需要我们进行函数的自定义。 阅读全文
posted @ 2019-06-10 19:02 他山之石·玉 阅读(524) 评论(0) 推荐(0)
摘要:一,必备知识 1.1 经典14问 1.2 问题前提 二,序列化问题 2.1 Spark序列化出现情况 2.2 Spark序列化问题解决 三,线程安全问题 3.1 Spark线程安全出现情况 3.2 Spark线程安全问题解决 正文 一,必备知识 1.1 经典14问 1.2 需求前提 在上面的12问的 阅读全文
posted @ 2019-06-10 17:00 他山之石·玉 阅读(1226) 评论(0) 推荐(0)
摘要:一,概述 二,广播变量broadcast variable 2.1 定义广播变量的原因 2.2 图解广播变量 2.3 定义广播变量 2.4 还原广播变量 2.5 定义注意事项 三,累加器 3.1 为什么要将一个变量定义为一个累加器 3.2 图解累加器 3.3 定义累加器 3.4 还原累加器 3.5  阅读全文
posted @ 2019-06-10 14:54 他山之石·玉 阅读(522) 评论(0) 推荐(0)
摘要:一,Spark SQL概述 1.1 什么是Spark SQL 1.2 为什么学Spark SQL 二,DataFrames 2.1 什么是DataFrames 2.2 创建DataFrames 三,DataFrame常用操作 3.1 DSL风格语法 3.2 SQL风格语法 四,SparkSQL编程实 阅读全文
posted @ 2019-06-09 16:46 他山之石·玉 阅读(1563) 评论(0) 推荐(0)
摘要:一,Spark中的基本概念 二,Spark的运行流程 三,Spark在不同集群的运行架构 3.1 Spark on Standalone运行流程 3.2 Spark on YARN运行过程 正文 文章原文:https://www.cnblogs.com/qingyunzong/p/8945933.h 阅读全文
posted @ 2019-06-08 22:24 他山之石·玉 阅读(2750) 评论(0) 推荐(0)
摘要:一,简介 二,自定义分区规则 2.1 普通的分组TopN实现 2.2 自定义分区规则TopN实现 三,RDD的缓存 3.1 RDD缓存简介 3.2 RDD缓存方式 正文 一,简介 在之前的文章中,我们知道RDD的有一个特征:就是一组分片(Partition),即数据集的基本组成单位。对于RDD来说, 阅读全文
posted @ 2019-06-07 20:10 他山之石·玉 阅读(1513) 评论(0) 推荐(0)
摘要:一,RDD概述 1.1 什么是RDD 1.2 RDD的属性 二,创建RDD 三,RDD编程API 3.1 Transformation 3.2 Action 3.3 WordCount 3.4 练习 四,RDD的依赖关系 4.1 窄依赖 4.2 宽依赖 4.3 Lineage 正文 一,RDD概述 阅读全文
posted @ 2019-06-04 21:43 他山之石·玉 阅读(707) 评论(0) 推荐(0)
摘要:一,简介 二,角色介绍 三,启动流程图 正文 一,简介 Standalone模式下,集群启动时包括Master与Worker,其中Master负责接收客户端提交的作业,管理Worker。提供了Web展示集群与作业信息。 二,角色介绍 Client(SparkSubmit):客户端进程,负责提交作业到 阅读全文
posted @ 2019-06-04 19:18 他山之石·玉 阅读(806) 评论(0) 推荐(0)
摘要:一,Spark概述 1.1 什么是Spark 1.2 Spark的产生背景 1.3 Spark的特点 二,Spark集群安装 2.1 集群部署 2.2 Spark下载 2.3 Spark配置 2.4 启动 三,执行Spark程序 3.1 执行第一个Spark程序 3.2 启动Spark shell 阅读全文
posted @ 2019-06-03 19:20 他山之石·玉 阅读(430) 评论(0) 推荐(0)
摘要:一,隐式(implicit)详解 1.1 隐式简介 1.2 隐式参数 1.3 隐式转换类型 1.4 隐式类 二,泛型 三,类型约束 3.1 上界(Upper Bounds)和下届(Lower Bounds) 3.2 视图界定/上下文界定 正文 一,隐式(implicit)详解 1.1 隐式简介 思考 阅读全文
posted @ 2019-06-02 23:12 他山之石·玉 阅读(711) 评论(0) 推荐(0)
摘要:一,Akka简介 二,Akka中的Actor模型 三,Akka实战案例之HelloActor 四,Akka实战案例之PingPong 五,案例基于 Actor 的聊天模型 六,用Akka实现Spark的Master和worker之间相互通信 正文 一,Akka简介 写并发程序很难。程序员不得不处理线 阅读全文
posted @ 2019-06-02 00:18 他山之石·玉 阅读(445) 评论(0) 推荐(0)
摘要:一,scala单例对象 二,scala类 2.1 类定义,主构造器,赋值构造器 2.2 访问权限 2.3 伴生类,apply方法 三,特质 四,抽象类 五,继承 5.1 final关键字 5.2 type关键字 六,样例类,样例对象 七,匹配模式 7.1 匹配字符串,类型,守卫 7.2 匹配数组 7 阅读全文
posted @ 2019-06-01 12:45 他山之石·玉 阅读(391) 评论(0) 推荐(0)