随笔档案「2019年6月」 - 他山之石·玉

Spark （十二） Spark Streaming详解

摘要：正文一，简介 1.1 概述是一个基于Spark Core之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理.Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twit 阅读全文

posted @ 2019-06-12 11:27 他山之石·玉阅读(3819) 评论(0) 推荐(1)

Kafka（一）初识

摘要：正文一，简介 Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据阅读全文

posted @ 2019-06-11 19:23 他山之石·玉阅读(319) 评论(0) 推荐(0)

Spark （十一） spark使用hive的元数据信息

摘要：正文一，简介跟hive没太的关系，就是使用了hive的标准（HQL，元数据库、UDF、序列化、反序列化机制）。Hive On Spark 使用RDD（DataFrame），然后运行在spark 集群上。二，shell方式配置和使用hive元数据信息 2.1 文件配置配置和hive的配置一致阅读全文

posted @ 2019-06-11 16:59 他山之石·玉阅读(3083) 评论(0) 推荐(0)

Spark （十） Spark 的种类型Join

摘要：正文一，简介 Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 SparkSQL作为大数据领域的SQL实现，自然也对Join操作做了不少优化，今天主要看一下在SparkSQL中对于J 阅读全文

posted @ 2019-06-11 15:56 他山之石·玉阅读(767) 评论(0) 推荐(1)

Spark 学习（九） SparkSQL 函数自定义和数据源

摘要：一，简介二，SparkSQL 的函数自定义 2.1 函数定义 2.2 函数注册 2.3 示例三，spark的数据源读取 3.1 JSON 3.2 JDBC 3.3 ParQuet 3.4 CSV 正文一，简介很多时候sql中的内置函数无法满足我们的日常开发需求，这就需要我们进行函数的自定义。阅读全文

posted @ 2019-06-10 19:02 他山之石·玉阅读(524) 评论(0) 推荐(0)

Spark 学习（六） Spark 的线程安全和序列化问题

摘要：一，必备知识 1.1 经典14问 1.2 问题前提二，序列化问题 2.1 Spark序列化出现情况 2.2 Spark序列化问题解决三，线程安全问题 3.1 Spark线程安全出现情况 3.2 Spark线程安全问题解决正文一，必备知识 1.1 经典14问 1.2 需求前提在上面的12问的阅读全文

posted @ 2019-06-10 17:00 他山之石·玉阅读(1226) 评论(0) 推荐(0)

Spark 学习（五）广播变量和累加器

摘要：一，概述二，广播变量broadcast variable 2.1 定义广播变量的原因 2.2 图解广播变量 2.3 定义广播变量 2.4 还原广播变量 2.5 定义注意事项三，累加器 3.1 为什么要将一个变量定义为一个累加器 3.2 图解累加器 3.3 定义累加器 3.4 还原累加器 3.5 阅读全文

posted @ 2019-06-10 14:54 他山之石·玉阅读(522) 评论(0) 推荐(0)

Spark 学习（八） SparkSQL简介

摘要：一，Spark SQL概述 1.1 什么是Spark SQL 1.2 为什么学Spark SQL 二，DataFrames 2.1 什么是DataFrames 2.2 创建DataFrames 三，DataFrame常用操作 3.1 DSL风格语法 3.2 SQL风格语法四，SparkSQL编程实阅读全文

posted @ 2019-06-09 16:46 他山之石·玉阅读(1563) 评论(0) 推荐(0)

Spark 学习（七） Spark的运行流程

摘要：一，Spark中的基本概念二，Spark的运行流程三，Spark在不同集群的运行架构 3.1 Spark on Standalone运行流程 3.2 Spark on YARN运行过程正文文章原文：https://www.cnblogs.com/qingyunzong/p/8945933.h 阅读全文

posted @ 2019-06-08 22:24 他山之石·玉阅读(2750) 评论(0) 推荐(0)

Spark 学习（四）RDD自定义分区和缓存

摘要：一，简介二，自定义分区规则 2.1 普通的分组TopN实现 2.2 自定义分区规则TopN实现三，RDD的缓存 3.1 RDD缓存简介 3.2 RDD缓存方式正文一，简介在之前的文章中，我们知道RDD的有一个特征：就是一组分片（Partition），即数据集的基本组成单位。对于RDD来说，阅读全文

posted @ 2019-06-07 20:10 他山之石·玉阅读(1513) 评论(0) 推荐(0)

Spark 学习（三） RDD基本介绍

摘要：一，RDD概述 1.1 什么是RDD 1.2 RDD的属性二，创建RDD 三，RDD编程API 3.1 Transformation 3.2 Action 3.3 WordCount 3.4 练习四，RDD的依赖关系 4.1 窄依赖 4.2 宽依赖 4.3 Lineage 正文一，RDD概述阅读全文

posted @ 2019-06-04 21:43 他山之石·玉阅读(707) 评论(0) 推荐(0)

Spark 学习（二） spark任务提交流程

摘要：一，简介二，角色介绍三，启动流程图正文一，简介 Standalone模式下，集群启动时包括Master与Worker，其中Master负责接收客户端提交的作业，管理Worker。提供了Web展示集群与作业信息。二，角色介绍 Client（SparkSubmit）：客户端进程，负责提交作业到阅读全文

posted @ 2019-06-04 19:18 他山之石·玉阅读(806) 评论(0) 推荐(0)

Spark 学习（一）初识

摘要：一，Spark概述 1.1 什么是Spark 1.2 Spark的产生背景 1.3 Spark的特点二，Spark集群安装 2.1 集群部署 2.2 Spark下载 2.3 Spark配置 2.4 启动三，执行Spark程序 3.1 执行第一个Spark程序 3.2 启动Spark shell 阅读全文

posted @ 2019-06-03 19:20 他山之石·玉阅读(430) 评论(0) 推荐(0)

Scala 学习（八）高级语法

摘要：一，隐式（implicit）详解 1.1 隐式简介 1.2 隐式参数 1.3 隐式转换类型 1.4 隐式类二，泛型三，类型约束 3.1 上界(Upper Bounds)和下届(Lower Bounds) 3.2 视图界定/上下文界定正文一，隐式（implicit）详解 1.1 隐式简介思考阅读全文

posted @ 2019-06-02 23:12 他山之石·玉阅读(711) 评论(0) 推荐(0)

Scala 学习（七）并发编程模型Akka

摘要：一，Akka简介二，Akka中的Actor模型三，Akka实战案例之HelloActor 四，Akka实战案例之PingPong 五，案例基于 Actor 的聊天模型六，用Akka实现Spark的Master和worker之间相互通信正文一，Akka简介写并发程序很难。程序员不得不处理线阅读全文

posted @ 2019-06-02 00:18 他山之石·玉阅读(445) 评论(0) 推荐(0)

Scala 学习（六）面向对象

摘要：一，scala单例对象二，scala类 2.1 类定义，主构造器，赋值构造器 2.2 访问权限 2.3 伴生类，apply方法三，特质四，抽象类五，继承 5.1 final关键字 5.2 type关键字六，样例类，样例对象七，匹配模式 7.1 匹配字符串，类型，守卫 7.2 匹配数组 7 阅读全文

posted @ 2019-06-01 12:45 他山之石·玉阅读(391) 评论(0) 推荐(0)

他山之石

06 2019 档案

公告