Spark - 随笔分类 - vincent_hv

【转】Hadoop vs Spark性能对比

摘要：原文地址：http://www.cnblogs.com/jerrylead/archive/2012/08/13/2636149.html基于Spark-0.4和Hadoop-0.20.21. Kmeans数据：自己产生的三维数据，分别围绕正方形的8个顶点{0, 0, 0}, {0, 10, 0}, {0, 0, 10}, {0, 10, 10},{10, 0, 0}, {10, 0, 10}, {10, 10, 0}, {10, 10, 10}Point number189,918,082 （1亿9千万个三维点）Capacity10GBHDFS Location/user/LijieXu/K 阅读全文

posted @ 2013-09-27 16:08 vincent_hv 阅读(616) 评论(0) 推荐(0) 编辑

【译】Spark调优

摘要：原文地址：http://spark.incubator.apache.org/docs/0.7.3/tuning.html译文地址：http://www.oschina.net/translate/spark-tuning译文作者：http://my.oschina.net/u/559738我的英语水平有限，此文是上传到oschina网站上由一位热心的网友（@sdzzboy）翻译的。oschina上的学习氛围不错，提出的问题会有很多热心的大牛帮忙解答，国内这样的社区还是比较少的，期待国内涌现例如google group，github,stack overflow这类的学习氛围的社区站点。以下为阅读全文

posted @ 2013-09-27 09:55 vincent_hv 阅读(745) 评论(0) 推荐(0) 编辑

【转】Spark源码分析之-scheduler模块

摘要：原文地址：http://jerryshao.me/architecture/2013/04/21/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B-scheduler%E6%A8%A1%E5%9D%97/BackgroundSpark在资源管理和调度方式上采用了类似于HadoopYARN的方式，最上层是资源调度器，它负责分配资源和调度注册到Spark中的所有应用，Spark选用Mesos或是YARN等作为其资源调度框架。在每一个应用内部，Spark又实现了任务调度器，负责任务的调度和协调，类似于MapReduce。本质上，外层的资源调度和内层阅读全文

posted @ 2013-09-23 13:51 vincent_hv 阅读(1154) 评论(0) 推荐(1) 编辑

【转】Spark源码分析之-deploy模块

摘要：原文地址：http://jerryshao.me/architecture/2013/04/30/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B-deploy%E6%A8%A1%E5%9D%97/Background在前文Spark源码分析之-scheduler模块中提到了Spark在资源管理和调度上采用了HadoopYARN的方式：外层的资源管理器和应用内的任务调度器；并且分析了Spark应用内的任务调度模块。本文就Spark的外层资源管理器-deploy模块进行分析，探究Spark是如何协调应用之间的资源调度和管理的。Spark最初是交阅读全文

posted @ 2013-09-23 13:46 vincent_hv 阅读(555) 评论(0) 推荐(1) 编辑

【转】Spark源码分析之-Storage模块

摘要：原文地址：http://blog.csdn.net/aiuyjerry/article/details/8595991Storage模块主要负责数据存取，包括MapReduce Shuffle中间结果、MapReduce task中间stage结果、cache结果。下面从架构和源码细节上来分析Storage模块的实现。Storage模块主要由两大部分组成：BlockManager部分主要负责Master和Slave之间的block通信，主要包括BlockManager状态上报、心跳，add, remove, update block.BlockStore部分主要负责数据存取，Spark根据不同阅读全文

posted @ 2013-09-23 13:35 vincent_hv 阅读(1199) 评论(0) 推荐(2) 编辑

【转】弹性分布式数据集：一种基于内存的集群计算的容错性抽象方法

摘要：原文出处：http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf译文原处：http://bbs.sciencenet.cn/home.php?mod=space&uid=425672&do=blog&id=520947摘要：本文提出了弹性分布式数据集（RDD，Resilient Distributed Datasets），这是一种分布式的内存抽象，允许在大型集群上执行基于内存的计算（In-Memory Computing），与此同时还保持了MapReduce等数据流模型的容错特性。现有的数据流系统阅读全文

posted @ 2013-09-22 16:38 vincent_hv 阅读(1014) 评论(0) 推荐(1) 编辑

【原】SPARK_MEM和SPARK_WORKER_MEMORY的区别

摘要：SPARK_MEM：设置每个Job（程序）在每个节点可用的内存量；（默认为512m）SPARK_WORKER_MEMORY：设置集群中每个节点分配的最大内存量；（默认为内存总量减去1G）阅读全文

posted @ 2013-09-17 17:50 vincent_hv 阅读(807) 评论(0) 推荐(0) 编辑

【转】Spark：一个高效的分布式计算系统

摘要：原文地址：http://tech.uc.cn/?p=2116概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示：Spark与Hadoop的对比Spark的中间数据放到内存中，对于迭代运算效率更高。Spark更适合于阅读全文

posted @ 2013-09-16 14:36 vincent_hv 阅读(998) 评论(0) 推荐(1) 编辑

【原】Spark 编程指南

摘要：尊重原创，注重版权，转贴请注明原文地址：http://www.cnblogs.com/vincent-hv/p/3322966.html1、配置程序使用资源：System.setProperty("spark.executor.memary", "512m")2、创建自己的SparkContext对象：val sc = new SparkContext("master", "Job name", "$SPARK_HOME", "Job JARs")3、创建RDDssc.par 阅读全文

posted @ 2013-09-15 19:17 vincent_hv 阅读(1420) 评论(0) 推荐(0) 编辑

【转】Spark性能测试报告

摘要：RDD可以很好地适用于支持数据并行的批量分析应用，包括数据挖掘，机器学习，图算法等，因为这些程序通常都会在很多记录上执行相同的操作。RDD不太适合那些异步更新共享状态的应用，例如并行web爬行器。因此，我们的目标是为大多数分析型应用提供有效的编程模型，而其他类型的应用交给专门的系统。关于RDD详见：弹性分布式数据集：一种基于内存的集群计算的容（二）：弹性分布式数据集（RDD）硬件环境：开发机器是 3台 Intel(R) Xeon(R) CPU E5440 @ 2.83GHz双核 2.8G 4G内存操作系统：Red Hat Enterprise Linux Server release 5.7 阅读全文

posted @ 2013-09-14 15:11 vincent_hv 阅读(2181) 评论(0) 推荐(0) 编辑

【译】Spark官方文档——Spark Configuration（Spark配置）

摘要：注重版权，尊重他人劳动转帖注明原文地址：http://www.cnblogs.com/vincent-hv/p/3316502.htmlSpark主要提供三种位置配置系统：环境变量：用来启动Spark workers，可以设置在你的驱动程序或者conf/spark-env.sh 脚本中；java系统性能：可以控制内部的配置参数，两种设置方法：编程的方式（程序中在创建SparkContext之前，使用System.setProperty（“xx”，“xxx”）语句设置相应系统属性值）；在conf/spark-env.sh中配置环境变量SPARK_JAVA_OPTS。日志配置：通过log4j.pr 阅读全文

posted @ 2013-09-12 11:20 vincent_hv 阅读(7995) 评论(0) 推荐(0) 编辑

【转】Spark 体系结构

摘要：原文地址：http://jerryshao.me/architecture/2013/03/29/spark-overview/援引@JerryLead的系统架构图作为Spark整体结构的一个 birdview：整体上Spark分为以下几个主要的子模块:deploy:deply模块包括Master，Work和Client，参见architecture图的最上部分。deploy主要负责启动和调度用户实现的Spark application并且分配资源给用户 application，类似于Hadoop YARN框架。scheduler:scheduler主要负责调度用户application内的阅读全文

posted @ 2013-09-10 17:19 vincent_hv 阅读(1600) 评论(0) 推荐(0) 编辑

【转】Spark快速入门指南

摘要：尊重版权，原文：http://blog.csdn.net/macyang/article/details/7100523- Spark是什么？Spark is a MapReduce-like cluster computing framework designed to support low-latency iterative jobs and interactive use from an interpreter. It is written in Scala, a high-level language for the JVM, and exposes a clean language 阅读全文

posted @ 2013-09-10 15:39 vincent_hv 阅读(972) 评论(0) 推荐(0) 编辑

【原】RDD专题

摘要：RDD是什么东西？在Spark中有什么作用？如何使用？1、RDD是什么（1）为什么会产生RDD？传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法（2）RDD的具体描述RDD（弹性数据集）是Spark提供的最重要的抽象的概念，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合，它提供了一种只读、只能有已存在的RDD变换而来的共享内存，然后将所有数据都加载到内存中，方便进行阅读全文

posted @ 2013-09-10 13:10 vincent_hv 阅读(1388) 评论(0) 推荐(0) 编辑

【原】简述使用spark集群模式运行程序

摘要：本文前提是已经正确安装好scala,sbt以及spark了简述将程序挂载到集群上运行的步骤：1、构建sbt标准的项目工程结构：其中：~/build.sbt文件用来配置项目的基本信息（项目名、组织名、项目版本、使用的scala版本或者再次配置些项目所需的依赖包）；project/build.properties文件配置你要使用什么版本的sbt对项目操作；project/plugins.sbt文件是给项目添加所需的插件；project/Build.scala文件是对项目进行些复杂的高级配置；详细的sbt安装配置实用参见博文：http://www.cnblogs.com/vincent-hv/p/3 阅读全文

posted @ 2013-09-09 15:03 vincent_hv 阅读(834) 评论(0) 推荐(0) 编辑

【译】Spark官方文档——编程指南

摘要：本文翻自官方博客，略有添加：https://github.com/mesos/spark/wiki/Spark-Programming-GuideSpark发指南从高的面看，其实每一个Spark的用，都是一个Driver类，通运行用户定义的main函，在集群上行各种并发操作和算Spark提供的最主要的抽象，是一个性分布式据集(RDD)，它是一种特殊集合，可以分布在集群的点上，以函式程操作集合的方式，行各种各样的并发操作。它可以由hdfs上的一个文件建而，或者是Driver程序中，从一个已经存在的集合而。用户可以据集存在存中，它被有效的重用，行并发操作。最后，分布式据集可以自动的从点失中恢复，再阅读全文

posted @ 2013-09-03 17:37 vincent_hv 阅读(2096) 评论(0) 推荐(0) 编辑

Spark官方文档——独立集群模式（Standalone Mode）

摘要：除了部署在Mesos之上, Spark也支持独立部署模式,包括一个Spark master进程和多个Spark worker进程.独立部署模式可以运行在单机上作为测试之用，也可以部署在集群上.如果你打算部署在集群上,可以使用我们提供的部署脚本启动一个集群。现在开始吧使用sbt package对进行编译，可以参考开始指南。如果打算部署单独模式，就不需要安装Mesos.手动方式启动集群通过如下命令启动单独模式的master服务:./runspark.deploy.master.Master一旦启动，master就会输出spark://IP:PORT以提示连接workers的方式。也可以通过参数“m 阅读全文

posted @ 2013-09-03 14:26 vincent_hv 阅读(3348) 评论(0) 推荐(1) 编辑

Spark官方文档——本地编写并运行scala程序

摘要：快速开始本文将介绍如何用scala、java、python编写一个spark单击模式的程序。首先你只需要在一台机器上成功建造Spark；做法：进入Spark的根目录，输入命令：$sbt/sbt package（由于天朝伟大的防火墙，大陆地区是无法成功的，除非你可以顺利FQ），不想爬墙的可以下载预编译好的Spark，spark-0.7.2-prebuilt-hadoop1.tgz.gzSpark shell的交互式分析一、基础概念：Spark的交互式脚本是一种学习API的简单途径，也是分析数据集交互的有力工具。在Spark根目录运行：./spark-shellSpark抽象的分布式集群空间叫做R 阅读全文

posted @ 2013-09-03 11:44 vincent_hv 阅读(16149) 评论(1) 推荐(0) 编辑

spark概论，补充

摘要：基本概念RDDspark最大的亮点是提出RDD(Resilient Distributed Dataset)的概念，也就是可伸缩的分布式数据集合，本身只读，可恢复。spark本身不做物理储存，通过保存足够的信息去实际的储存中计算出RDDRDD只要通过四种途径获取：1、从共享的文件系统，比如HDFS2、在驱动程序里的并行scala集合(例如数组)，会发到多个节点上3、从已存在的RDD转换4、通过改变现有的RDD持久性。rdd是一个懒散，短暂的。改变一个RDD的持久化通过两个动作：cache：在第一次计算的时候保存在内存中，可以重用save：保存到一个分布式文件系统，比如hdfs，这个保存版本会用阅读全文

posted @ 2013-08-23 19:26 vincent_hv 阅读(420) 评论(0) 推荐(0) 编辑

spark概论

摘要：一、概述1.轻：（1）采用语言简洁的scala编写；（2）利用了hadoop和mesos的基础设施2.快：spark的内存计算、数据本地性和传输优化、调度优化，使其在迭代机器学习，ad-hoc query、图计算等方面是hadoop的MapReduce、hive和Pregel无法比拟的3.灵：（1）实现层：完美演绎了Scala trait动态混入策略（如可更换的集群调度器、序列化库）；（2）原语层：允许款站新的数据算子（operator）、新的数据源、新的language bindings；（3）范式层：支持内存计算、多迭代批处理、即席查询、流处理和图计算等4.巧：与Hadoop无缝结合；数据阅读全文

posted @ 2013-08-23 18:46 vincent_hv 阅读(969) 评论(0) 推荐(0) 编辑

vincent_hv

Talk is cheap, show the code!

随笔分类 - Spark

公告