spark - 随笔分类 - duanxz

Spark1.6 Idea下远程调试

摘要：使用的开发工具：scala2.10.4、Idea16、JDK8 1.导入依赖的包和源码在下载Spark中到的导入spark的相关依赖了包和其源码.zip,相关源码的下载地址：https://github.com/apache/spark/tree/v1.6.0 地址最后面是对应的版本号，下载源码便阅读全文

posted @ 2017-02-04 16:46 duanxz 阅读(467) 评论(0) 推荐(0)

spark textFile 困惑与解释

摘要：在编写spark测试应用时，会用到sc.textFile(path, partition) 当配置为spark分布式集群时，当你读取本地文件作为输入时，需要将文件存放在每台work节点上。这时会有困惑，spark在读取文件时，是每台worker节点都把文件读入？然后在进行分配？会不会出现重阅读全文

posted @ 2017-01-22 10:20 duanxz 阅读(14109) 评论(0) 推荐(1)

JVM插码之六：jacoco插码及问题“$jacocodata 属性 Method not found: is$jacocoData”

摘要：在使用jacoco统计自动化代码覆盖率 jacoco统计自动化代码覆盖率1. 简介1.1. 什么是JacocoJacoco是一个开源的代码覆盖率工具，可以嵌入到Ant 、Maven中，并提供了EclEmma Eclipse插件,也可以使用JavaAgent技术监控Java程序。很多第三方的工具提供了阅读全文

posted @ 2017-01-22 10:19 duanxz 阅读(4077) 评论(1) 推荐(0)

RDD之七：Spark容错机制

摘要：引入一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源。因此，Spark选择记录更新的方式。但是，如果更新粒度太细太阅读全文

posted @ 2017-01-20 23:54 duanxz 阅读(9192) 评论(1) 推荐(3)

RDD之六：Action算子

摘要：本质上在Actions算子中通过SparkContext执行提交作业的runJob操作，触发了RDD DAG的执行。根据Action算子的输出空间将Action算子进行分类：无输出、 HDFS、 Scala集合和数据类型。无输出 foreach 对RDD中的每个元素都应用f函数操作，不返回RDD 阅读全文

posted @ 2017-01-20 20:48 duanxz 阅读(1215) 评论(0) 推荐(0)

RDD之五：Key-Value型Transformation算子

摘要：spark 阅读全文

posted @ 2017-01-20 20:47 duanxz 阅读(1043) 评论(0) 推荐(0)

RDD之四：Value型Transformation算子

摘要：处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型: 1）输入分区与输出分区一对一型 2）输入分区与输出分区多对一型 3）输入分区与输出分区多对多型 4）输出分区为输入分区子集型 5）还有一种特殊的输入与输出分区一对一的算子类型阅读全文

posted @ 2017-01-20 20:46 duanxz 阅读(940) 评论(0) 推荐(0)

RDD之三：RDD创建方式

摘要：RDD创建方式 1）从Hadoop文件系统（如HDFS、Hive、HBase）输入创建。2）从父RDD转换得到新RDD。3）通过parallelize或makeRDD将单机数据创建为分布式RDD。 4）基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。从集合创建RDD 阅读全文

posted @ 2017-01-20 20:36 duanxz 阅读(2233) 评论(0) 推荐(0)

RDD之二：原理

摘要：RDD简介在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（Resilient Distributed Dataset，RDD）。RDD是Spark的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已阅读全文

posted @ 2017-01-20 20:35 duanxz 阅读(792) 评论(0) 推荐(0)

服务中台

摘要：其实腾讯并不是最早弄中台的，但今年中台是被腾讯带火的。国内最早弄中台的公司是阿里巴巴！说到阿里巴巴的中台就不得不说到芬兰的一家游戏公司Supercell！芬兰游戏公司Supercell 2015年年中，马云带领阿里巴巴集团高管，拜访了位于芬兰赫尔辛基的移动游戏公司Supercell。Superce 阅读全文

posted @ 2017-01-20 18:18 duanxz 阅读(839) 评论(0) 推荐(0)

spark api之二：常用示例

摘要：1、启动spark shell，在doc窗口上打开spark-shell（环境安装见：二、Spark在Windows下的环境搭建）并行化scala集合(Parallelize) 并行化scala集合(Parallelize) //加载数据1~10 val num=sc.parallelize(1 阅读全文

posted @ 2017-01-20 18:17 duanxz 阅读(322) 评论(0) 推荐(0)

spark api之一：Spark官方文档 - 中文翻译

摘要：转载请注明出处：http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linking with Spark) 3 初始化Spark(Initializing Spark) 3.1 使用Spark Shell(Using the Shell) 阅读全文

posted @ 2015-04-25 00:46 duanxz 阅读(2985) 评论(0) 推荐(0)

spark提交模式

摘要：spark基本的提交语句： ./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value>\ ... # other opti 阅读全文

posted @ 2015-04-24 21:54 duanxz 阅读(856) 评论(0) 推荐(0)

spark运行模式之二：Spark的Standalone模式安装部署

摘要：Spark运行模式 Spark 有很多种模式，最简单就是单机本地模式，还有单机伪分布式模式，复杂的则运行在集群中，目前能很好的运行在 Yarn和 Mesos 中，当然 Spark 还有自带的 Standalone 模式，对于大多数情况 Standalone 模式就足够了，如果企业已经有 Yarn 或阅读全文

posted @ 2015-04-18 23:28 duanxz 阅读(976) 评论(0) 推荐(0)

spark运行模式之一：Spark的local模式安装部署

摘要：Spark运行模式 Spark 有很多种模式，最简单就是单机本地模式，还有单机伪分布式模式，复杂的则运行在集群中，目前能很好的运行在 Yarn和 Mesos 中，当然 Spark 还有自带的 Standalone 模式，对于大多数情况 Standalone 模式就足够了，如果企业已经有 Yarn 或阅读全文

posted @ 2015-04-18 18:05 duanxz 阅读(12296) 评论(0) 推荐(0)

Spark Tungsten in-heap / off-heap 内存管理机制--待整理

摘要：一：Tungsten中到底什么是Page？ 1. 在Spark其实不存在Page这个类的。Page是一种数据结构(类似于Stack，List等)，从OS层面上讲，Page代表了一个内存块，在Page里面可以存放数据，在OS中会存放很多不同的Page，当要获得数据的时候首先要定位具体是哪个Page中的阅读全文

posted @ 2015-04-18 18:04 duanxz 阅读(2183) 评论(0) 推荐(0)

sparkContext之一：sparkContext的初始化分析

摘要：Spark源码学习：sparkContext的初始化分析 spark可以运行在本地模式local下，可以运行在yarn和standalone模式下，但是本地程序是通过什么渠道和这些集群交互的呢？那就是sparkContext，他在spark生态系统中的作用不言而喻，绝对是最重要的，整体架构如图所示：阅读全文

posted @ 2015-04-13 21:10 duanxz 阅读(1304) 评论(0) 推荐(0)

Spark Streaming之六：Transformations 普通的转换操作

摘要：与RDD类似，DStream也提供了自己的一系列操作方法，这些操作可以分成四类： Transformations 普通的转换操作 Window Operations 窗口转换操作 Join Operations 合并操作 Output Operations 输出操作 2.2.3.1 普通的转换操作阅读全文

posted @ 2015-04-09 17:04 duanxz 阅读(1122) 评论(0) 推荐(0)

Spark Streaming之五：Window窗体相关操作

摘要：SparkStreaming之window滑动窗口应用，Spark Streaming提供了滑动窗口操作的支持，从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据，会被聚合起来执行计算操作，然后生成的RDD，会作为window DStream的一个RDD。网官图中所示阅读全文

posted @ 2015-04-09 09:36 duanxz 阅读(11501) 评论(0) 推荐(1)

Spark Streaming之四：Spark Streaming 与 Kafka 集成分析

摘要：前言 Spark Streaming 诞生于2013年，成为Spark平台上流式处理的解决方案，同时也给大家提供除Storm 以外的另一个选择。这篇内容主要介绍Spark Streaming 数据接收流程模块中与Kafka集成相关的功能。 Spark Streaming 与 Kafka 集成接受数据阅读全文

posted @ 2015-04-05 08:32 duanxz 阅读(849) 评论(0) 推荐(0)

随笔分类 - spark