随笔分类 -  spark

1 2 下一页
spark
Spark1.6 Idea下远程调试
摘要:使用的开发工具:scala2.10.4、Idea16、JDK8 1.导入依赖的包和源码 在下载Spark中到的导入spark的相关依赖了包和其源码.zip,相关源码的下载地址:https://github.com/apache/spark/tree/v1.6.0 地址最后面是对应的版本号,下载源码便 阅读全文
posted @ 2017-02-04 16:46 duanxz 阅读(449) 评论(0) 推荐(0) 编辑
spark textFile 困惑与解释
摘要:在编写spark测试应用时, 会用到sc.textFile(path, partition) 当配置为spark分布式集群时,当你读取本地文件作为输入时, 需要将文件存放在每台work节点上。 这时会有困惑,spark在读取文件时,是每台worker节点都把文件读入? 然后在进行分配? 会不会出现重 阅读全文
posted @ 2017-01-22 10:20 duanxz 阅读(14012) 评论(0) 推荐(1) 编辑
JVM插码之六:jacoco插码及问题“$jacocodata 属性 Method not found: is$jacocoData”
摘要:在使用jacoco统计自动化代码覆盖率 jacoco统计自动化代码覆盖率1. 简介1.1. 什么是JacocoJacoco是一个开源的代码覆盖率工具,可以嵌入到Ant 、Maven中,并提供了EclEmma Eclipse插件,也可以使用JavaAgent技术监控Java程序。很多第三方的工具提供了 阅读全文
posted @ 2017-01-22 10:19 duanxz 阅读(3397) 评论(1) 推荐(0) 编辑
RDD之七:Spark容错机制
摘要:引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太 阅读全文
posted @ 2017-01-20 23:54 duanxz 阅读(8979) 评论(1) 推荐(3) 编辑
RDD之六:Action算子
摘要:本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。 根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。 无输出 foreach 对RDD中的每个元素都应用f函数操作,不返回RDD 阅读全文
posted @ 2017-01-20 20:48 duanxz 阅读(1186) 评论(0) 推荐(0) 编辑
RDD之五:Key-Value型Transformation算子
摘要:spark 阅读全文
posted @ 2017-01-20 20:47 duanxz 阅读(1015) 评论(0) 推荐(0) 编辑
RDD之四:Value型Transformation算子
摘要:处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型: 1)输入分区与输出分区一对一型 2)输入分区与输出分区多对一型 3)输入分区与输出分区多对多型 4)输出分区为输入分区子集型 5)还有一种特殊的输入与输出分区一对一的算子类型 阅读全文
posted @ 2017-01-20 20:46 duanxz 阅读(914) 评论(0) 推荐(0) 编辑
RDD之三:RDD创建方式
摘要:RDD创建方式 1)从Hadoop文件系统(如HDFS、Hive、HBase)输入创建。2)从父RDD转换得到新RDD。3)通过parallelize或makeRDD将单机数据创建为分布式RDD。 4)基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。 从集合创建RDD 阅读全文
posted @ 2017-01-20 20:36 duanxz 阅读(2164) 评论(0) 推荐(0) 编辑
RDD之二:原理
摘要:RDD简介 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed Dataset,RDD)。RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已 阅读全文
posted @ 2017-01-20 20:35 duanxz 阅读(753) 评论(0) 推荐(0) 编辑
服务中台
摘要:其实腾讯并不是最早弄中台的,但今年中台是被腾讯带火的。国内最早弄中台的公司是阿里巴巴!说到阿里巴巴的中台就不得不说到芬兰的一家游戏公司Supercell! 芬兰游戏公司Supercell 2015年年中,马云带领阿里巴巴集团高管,拜访了位于芬兰赫尔辛基的移动游戏公司Supercell。Superce 阅读全文
posted @ 2017-01-20 18:18 duanxz 阅读(751) 评论(0) 推荐(0) 编辑
spark api之二:常用示例
摘要:1、启动spark shell,在doc窗口上打开spark-shell(环境安装见:二、Spark在Windows下的环境搭建) 并行化scala集合(Parallelize) 并行化scala集合(Parallelize) //加载数据1~10 val num=sc.parallelize(1 阅读全文
posted @ 2017-01-20 18:17 duanxz 阅读(302) 评论(0) 推荐(0) 编辑
spark api之一:Spark官方文档 - 中文翻译
摘要:转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linking with Spark) 3 初始化Spark(Initializing Spark) 3.1 使用Spark Shell(Using the Shell) 阅读全文
posted @ 2015-04-25 00:46 duanxz 阅读(2696) 评论(0) 推荐(0) 编辑
spark提交模式
摘要:spark基本的提交语句: ./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value>\ ... # other opti 阅读全文
posted @ 2015-04-24 21:54 duanxz 阅读(831) 评论(0) 推荐(0) 编辑
spark运行模式之二:Spark的Standalone模式安装部署
摘要:Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,如果企业已经有 Yarn 或 阅读全文
posted @ 2015-04-18 23:28 duanxz 阅读(920) 评论(0) 推荐(0) 编辑
spark运行模式之一:Spark的local模式安装部署
摘要:Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,如果企业已经有 Yarn 或 阅读全文
posted @ 2015-04-18 18:05 duanxz 阅读(12153) 评论(0) 推荐(0) 编辑
Spark Tungsten in-heap / off-heap 内存管理机制--待整理
摘要:一:Tungsten中到底什么是Page? 1. 在Spark其实不存在Page这个类的。Page是一种数据结构(类似于Stack,List等),从OS层面上讲,Page代表了一个内存块,在Page里面可以存放数据,在OS中会存放很多不同的Page,当要获得数据的时候首先要定位具体是哪个Page中的 阅读全文
posted @ 2015-04-18 18:04 duanxz 阅读(2121) 评论(0) 推荐(0) 编辑
sparkContext之一:sparkContext的初始化分析
摘要:Spark源码学习:sparkContext的初始化分析 spark可以运行在本地模式local下,可以运行在yarn和standalone模式下,但是本地程序是通过什么渠道和这些集群交互的呢?那就是sparkContext,他在spark生态系统中的作用不言而喻,绝对是最重要的,整体架构如图所示: 阅读全文
posted @ 2015-04-13 21:10 duanxz 阅读(1242) 评论(0) 推荐(0) 编辑
Spark Streaming之六:Transformations 普通的转换操作
摘要:与RDD类似,DStream也提供了自己的一系列操作方法,这些操作可以分成四类: Transformations 普通的转换操作 Window Operations 窗口转换操作 Join Operations 合并操作 Output Operations 输出操作 2.2.3.1 普通的转换操作 阅读全文
posted @ 2015-04-09 17:04 duanxz 阅读(1070) 评论(0) 推荐(0) 编辑
Spark Streaming之五:Window窗体相关操作
摘要:SparkStreaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。 网官图中所示 阅读全文
posted @ 2015-04-09 09:36 duanxz 阅读(11305) 评论(0) 推荐(1) 编辑
Spark Streaming之四:Spark Streaming 与 Kafka 集成分析
摘要:前言 Spark Streaming 诞生于2013年,成为Spark平台上流式处理的解决方案,同时也给大家提供除Storm 以外的另一个选择。这篇内容主要介绍Spark Streaming 数据接收流程模块中与Kafka集成相关的功能。 Spark Streaming 与 Kafka 集成接受数据 阅读全文
posted @ 2015-04-05 08:32 duanxz 阅读(794) 评论(0) 推荐(0) 编辑

1 2 下一页