Frankdeng

2018年7月15日

摘要： Spark Streaming + Kafka集成指南 Kafka项目在版本0.8和0.10之间引入了一个新的消费者API，因此有两个独立的相应Spark Streaming包可用。请选择正确的包，请注意，0.8集成与后来的0.9和0.10代理兼容，但0.10集成与早期的代理不兼容。注意：从Sp 阅读全文

posted @ 2018-07-15 23:49 Frankdeng 阅读(15117) 评论(3) 推荐(2)

Spark（十七）图计算GraphX

摘要：一、图概念术语 1.1 基本概念图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种数据结构。这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模，图可以用来表示自然发生的连接数据，如：社交网络、互联网web页面常用的应用有：在地图应用中找到最短路径、基于与他人的相阅读全文

posted @ 2018-07-15 22:22 Frankdeng 阅读(9754) 评论(3) 推荐(1)

Spark（十六）DataSet

摘要： Spark最吸引开发者的就是简单易用、跨语言(Scala, Java, Python, and R)的API。本文主要讲解Apache Spark 2.0中RDD，DataFrame和Dataset三种API；它们各自适合的使用场景；它们的性能和优化；列举使用DataFrame和DataSet代替阅读全文

posted @ 2018-07-15 22:03 Frankdeng 阅读(4570) 评论(0) 推荐(0)

Spark（十五）SparkCore的源码解读

摘要：一、启动脚本分析独立部署模式下，主要由master和slaves组成，master可以利用zk实现高可用性，其driver，work，app等信息可以持久化到zk上；slaves由一台至多台主机构成。Driver通过向Master申请资源获取运行环境。启动master和slaves主要是执行/u 阅读全文

posted @ 2018-07-15 21:47 Frankdeng 阅读(2176) 评论(0) 推荐(1)

Spark（十四）SparkStreaming的官方文档

摘要：一、SparkCore、SparkSQL和SparkStreaming的类似之处二、SparkStreaming的运行流程 2.1　图解说明 2.2　文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar，然后就会产生一个Application，开启一个Driver，然阅读全文

posted @ 2018-07-15 20:15 Frankdeng 阅读(1261) 评论(0) 推荐(0)

Spark（十三）SparkSQL的自定义函数UDF与开窗函数

摘要：一自定义函数UDF 在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等 UDAF（User- Defined Aggregation Funcation），用户阅读全文

posted @ 2018-07-15 18:55 Frankdeng 阅读(2865) 评论(0) 推荐(0)

Spark（十二）SparkSQL简单使用

摘要：一、SparkSQL的进化之路 1.0以前： Shark 1.1.x开始：SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x： SparkSQL+DataFrame+DataSet(测试版本) 阅读全文

posted @ 2018-07-15 16:46 Frankdeng 阅读(20804) 评论(0) 推荐(0)

Spark（十一）Spark分区

摘要：一、分区的概念分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。二、为什么要进行分区数据分区，阅读全文

posted @ 2018-07-15 15:05 Frankdeng 阅读(2884) 评论(1) 推荐(0)

2018年7月14日

Spark（十）Spark之数据倾斜调优

摘要：一调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。 1.1数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如阅读全文

posted @ 2018-07-14 23:22 Frankdeng 阅读(3898) 评论(2) 推荐(1)

Spark（九）Spark之Shuffle调优

摘要：一、概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾阅读全文

posted @ 2018-07-14 19:08 Frankdeng 阅读(1912) 评论(0) 推荐(1)

公告