大数据-spark - 随笔分类 - 南边雪

flume安装和介绍

摘要：一、安装1、flume-ng-1.5.0-cdh5.3.6.tar.gz 下载链接：https://pan.baidu.com/s/1AWPGP2qnY6_VpYr_iSnJ3w 密码：tiog2、对flume进行解压缩：tar -zxvf flume-ng-1.5.0-cdh5.3.6.tar.g 阅读全文

posted @ 2018-09-17 22:04 南边雪阅读(243) 评论(0) 推荐(0)

saprk性能调优参考

摘要：1、Tuning Spark 文档原文：http://spark.apache.org/docs/latest/tuning.html 翻译参考：https://www.cnblogs.com/lhfcws/p/6297337.html 2、Cloudera 上关于 Spark 调优的有关博客 H 阅读全文

posted @ 2018-09-15 17:53 南边雪阅读(158) 评论(0) 推荐(0)

Spark性能优化指南——基础篇（转）

摘要：【转】Spark性能优化指南——基础篇 http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOET 阅读全文

posted @ 2018-08-26 14:55 南边雪阅读(330) 评论(0) 推荐(0)

spark和 mapreduce的比较

摘要：网上查阅一些资料，收集整理如下： 1、通用性 spark更加通用，spark提供了transformation和action这两大类的多个功能api，另外还有流式处理sparkstreaming模块、图计算GraphX等等；mapreduce只提供了map和reduce两种操作，流计算以及其他模块阅读全文

posted @ 2018-08-25 11:43 南边雪阅读(1219) 评论(0) 推荐(0)

SparkSQL--数据源Parquet的加载和保存

摘要：一、通用的load和save操作对于Spark SQL的DataFrame来说，无论是从什么数据源创建出来的DataFrame，都有一些共同的load和save操作。load操作主要用于加载数据，创建出DataFrame；save操作，主要用于将DataFrame中的数据保存到文件中。 Java版阅读全文

posted @ 2018-08-23 19:49 南边雪阅读(2228) 评论(0) 推荐(0)

SparkSQL -DataFrame与RDD的互转

摘要：创建DataFrame使用SQLContext，可以从RDD、Hive表或者其他数据源，来创建一个DataFrame。以下是一个使用JSON文件创建DataFrame的例子： Java版本：JavaSparkContext sc = ...; SQLContext sqlContext = new 阅读全文

posted @ 2018-08-23 10:20 南边雪阅读(748) 评论(0) 推荐(0)

sparkSQL 简介

摘要：一、Spark SQL的特点 1、支持多种数据源：Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术：in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性：对于SQL的语法解析器、分析阅读全文

posted @ 2018-08-22 17:23 南边雪阅读(361) 评论(0) 推荐(0)

DAGScheduler stage 划分算法

摘要：DAGScheduler stage 划分算法 stage划分算法很重要，对于spark开发人员来说，必须对stage划分算法很清晰，知道自己编写的spark Application被划分成了几个job，每个job被划分成了几个stage，每个stage包括哪些代码，这样当发现哪个stage报错或者阅读全文

posted @ 2018-08-22 15:03 南边雪阅读(684) 评论(0) 推荐(0)

sparkContext初始化机制

摘要：sparkContext初始化机制要点： 1、TaskSchedular如何注册，application、Excutor 如何反向注册 TaskScheduleImpl 即 TaskSchedular， SparkDestroySchedularBackend底层接收TaskScheduleImp 阅读全文

posted @ 2018-08-21 17:01 南边雪阅读(339) 评论(0) 推荐(0)

spark基于yarn的两种提交模式

摘要：一、spark的三种提交模式 1、第一种，Spark内核架构，即standalone模式，基于Spark自己的Master-Worker集群。 2、第二种，基于YARN的yarn-cluster模式。 3、第三种，基于YARN的yarn-client模式。如果，你要切换到第二种和第三种模式，在提交阅读全文

posted @ 2018-08-21 14:05 南边雪阅读(421) 评论(0) 推荐(0)

分组取topN

摘要：假设有这样一个文件，文件内容如下要求按照班级分组取出每个班前三名，源码如下： topN的排序算法可以理解：假如有三个山洞，一群土匪排着队来抢占山洞，按如下规则占领山洞，下面算法保证第一个山洞主人永远是最厉害的，以此类推实现：阅读全文

posted @ 2018-08-21 11:34 南边雪阅读(226) 评论(0) 推荐(0)

spark集群搭建（三台虚拟机）——spark集群搭建（5）