返回顶部 Fork me on GitHub
上一页 1 2 3 4 5 6 7 8 9 10 ··· 13 下一页
摘要: Spark Streaming + Kafka集成指南 Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用。请选择正确的包, 请注意,0.8集成与后来的0.9和0.10代理兼容,但0.10集成与早期的代理不兼容。 注意:从Sp 阅读全文
posted @ 2018-07-15 23:49 Frankdeng 阅读(14779) 评论(3) 推荐(2) 编辑
摘要: 一、图概念术语 1.1 基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。 这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面 常用的应用有:在地图应用中找到最短路径、基于与他人的相 阅读全文
posted @ 2018-07-15 22:22 Frankdeng 阅读(9504) 评论(3) 推荐(1) 编辑
摘要: Spark最吸引开发者的就是简单易用、跨语言(Scala, Java, Python, and R)的API。 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自适合的使用场景;它们的性能和优化;列举使用DataFrame和DataSet代替 阅读全文
posted @ 2018-07-15 22:03 Frankdeng 阅读(4465) 评论(0) 推荐(0) 编辑
摘要: 一、启动脚本分析 独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上;slaves由一台至多台主机构成。Driver通过向Master申请资源获取运行环境。 启动master和slaves主要是执行/u 阅读全文
posted @ 2018-07-15 21:47 Frankdeng 阅读(2094) 评论(0) 推荐(1) 编辑
摘要: 一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然 阅读全文
posted @ 2018-07-15 20:15 Frankdeng 阅读(1226) 评论(0) 推荐(0) 编辑
摘要: 一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户 阅读全文
posted @ 2018-07-15 18:55 Frankdeng 阅读(2743) 评论(0) 推荐(0) 编辑
摘要: 一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始:SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本) 阅读全文
posted @ 2018-07-15 16:46 Frankdeng 阅读(20629) 评论(0) 推荐(0) 编辑
摘要: 一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。 二、为什么要进行分区 数据分区, 阅读全文
posted @ 2018-07-15 15:05 Frankdeng 阅读(2825) 评论(1) 推荐(0) 编辑
摘要: 一 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 1.1数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如 阅读全文
posted @ 2018-07-14 23:22 Frankdeng 阅读(3789) 评论(2) 推荐(1) 编辑
摘要: 一、概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾 阅读全文
posted @ 2018-07-14 19:08 Frankdeng 阅读(1697) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 13 下一页