上一页 1 2 3 4 5 6 7 ··· 14 下一页
摘要: 正文 一,简介 1.1 概述 是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理.Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twit 阅读全文
posted @ 2019-06-12 11:27 他山之石·玉 阅读(3595) 评论(0) 推荐(1) 编辑
摘要: 正文 一,简介 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据 阅读全文
posted @ 2019-06-11 19:23 他山之石·玉 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 正文 一,简介 跟hive没太的关系,就是使用了hive的标准(HQL, 元数据库、UDF、序列化、反序列化机制)。Hive On Spark 使用RDD(DataFrame),然后运行在spark 集群上。 二,shell方式配置和使用hive元数据信息 2.1 文件配置 配置和hive的配置一致 阅读全文
posted @ 2019-06-11 16:59 他山之石·玉 阅读(2940) 评论(0) 推荐(0) 编辑
摘要: 正文 一,简介 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于J 阅读全文
posted @ 2019-06-11 15:56 他山之石·玉 阅读(664) 评论(0) 推荐(1) 编辑
摘要: 一,简介 二,SparkSQL 的函数自定义 2.1 函数定义 2.2 函数注册 2.3 示例 三,spark的数据源读取 3.1 JSON 3.2 JDBC 3.3 ParQuet 3.4 CSV 正文 一,简介 很多时候sql中的内置函数无法满足我们的日常开发需求,这就需要我们进行函数的自定义。 阅读全文
posted @ 2019-06-10 19:02 他山之石·玉 阅读(467) 评论(0) 推荐(0) 编辑
摘要: 一,必备知识 1.1 经典14问 1.2 问题前提 二,序列化问题 2.1 Spark序列化出现情况 2.2 Spark序列化问题解决 三,线程安全问题 3.1 Spark线程安全出现情况 3.2 Spark线程安全问题解决 正文 一,必备知识 1.1 经典14问 1.2 需求前提 在上面的12问的 阅读全文
posted @ 2019-06-10 17:00 他山之石·玉 阅读(1162) 评论(0) 推荐(0) 编辑
摘要: 一,概述 二,广播变量broadcast variable 2.1 定义广播变量的原因 2.2 图解广播变量 2.3 定义广播变量 2.4 还原广播变量 2.5 定义注意事项 三,累加器 3.1 为什么要将一个变量定义为一个累加器 3.2 图解累加器 3.3 定义累加器 3.4 还原累加器 3.5  阅读全文
posted @ 2019-06-10 14:54 他山之石·玉 阅读(440) 评论(0) 推荐(0) 编辑
摘要: 一,Spark SQL概述 1.1 什么是Spark SQL 1.2 为什么学Spark SQL 二,DataFrames 2.1 什么是DataFrames 2.2 创建DataFrames 三,DataFrame常用操作 3.1 DSL风格语法 3.2 SQL风格语法 四,SparkSQL编程实 阅读全文
posted @ 2019-06-09 16:46 他山之石·玉 阅读(1516) 评论(0) 推荐(0) 编辑
摘要: 一,Spark中的基本概念 二,Spark的运行流程 三,Spark在不同集群的运行架构 3.1 Spark on Standalone运行流程 3.2 Spark on YARN运行过程 正文 文章原文:https://www.cnblogs.com/qingyunzong/p/8945933.h 阅读全文
posted @ 2019-06-08 22:24 他山之石·玉 阅读(2667) 评论(0) 推荐(0) 编辑
摘要: 一,简介 二,自定义分区规则 2.1 普通的分组TopN实现 2.2 自定义分区规则TopN实现 三,RDD的缓存 3.1 RDD缓存简介 3.2 RDD缓存方式 正文 一,简介 在之前的文章中,我们知道RDD的有一个特征:就是一组分片(Partition),即数据集的基本组成单位。对于RDD来说, 阅读全文
posted @ 2019-06-07 20:10 他山之石·玉 阅读(1411) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 14 下一页