欢迎来到我的博客小站。  交流请加我微信好友: studyjava。  也欢迎关注公众号:Java学习之道 Fork me on GitHub

随笔分类 - Spark

spark生态圈
摘要:一、引言 作者:Albert陈凯链接:https://www.jianshu.com/p/f3181afec605來源:简书 Introduction 本文主要讨论 Apache Spark 的设计与实现,重点关注其设计思想、运行原理、实现架构及性能调优,附带讨论与 Hadoop MapReduce 阅读全文
posted @ 2018-08-06 11:51 淼淼之森 阅读(6175) 评论(0) 推荐(1) 编辑
摘要:spark之JDBC开发(连接数据库测试) 以下操作属于本地模式操作: 1、在Eclipse4.5中建立工程RDDToJDBC,并创建一个文件夹lib用于放置第三方驱动包 [hadoop@CloudDeskTop software]$ cd /project/RDDToJDBC/[hadoop@Cl 阅读全文
posted @ 2018-02-26 22:06 淼淼之森 阅读(1525) 评论(0) 推荐(0) 编辑
摘要:一、概述 Spark Core、Spark-SQL与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用$SPARK_HOME/bin#./spark-submit --master spark://Master01:7077 --cla 阅读全文
posted @ 2018-02-08 20:32 淼淼之森 阅读(4067) 评论(0) 推荐(0) 编辑
摘要:准备工作: 将运行Scala-Eclipse的机器节点(CloudDeskTop)内存调整至4G,因为需要在该节点上跑本地(local)Spark程序,本地Spark程序会启动Worker进程耗用大量内存资源 其余准备工作可参考:scala程序开发之单词出现次数统计(本地运行模式) 1、启动Spar 阅读全文
posted @ 2018-02-07 16:58 淼淼之森 阅读(5688) 评论(8) 推荐(1) 编辑
摘要:准备工作: 将运行Scala-Eclipse的机器节点(CloudDeskTop)内存调整至4G,因为需要在该节点上跑本地(local)Spark程序,本地Spark程序会启动Worker进程耗用大量内存资源 本地运行模式(主要用于调试) 1、首先将Spark的所有jar包拷贝到hadoop用户家目 阅读全文
posted @ 2018-02-07 15:58 淼淼之森 阅读(4291) 评论(0) 推荐(0) 编辑
摘要:spark之java程序开发 1、Spark中的Java开发的缘由: Spark自身是使用Scala程序开发的,Scala语言是同时具备函数式编程和指令式编程的一种混血语言,而Spark源码是基于Scala函数式编程来给予设计的,Spark官方推荐Spark的开发人员基于Scala的函数式编程来实现 阅读全文
posted @ 2018-02-05 10:13 淼淼之森 阅读(4780) 评论(0) 推荐(0) 编辑
摘要:scala程序开发入门,快速步入scala的门槛: 1、Scala的特性: A、纯粹面向对象(没有基本类型,只有对象类型)、Scala的安装与JDK相同,只需要解压之后配置环境变量即可;B、Scala在安装之前必须先安装JDK,因为Scala的编译结果是中间字节码文件,它需要在JVM上运行,Scal 阅读全文
posted @ 2018-02-04 20:40 淼淼之森 阅读(3266) 评论(0) 推荐(2) 编辑
摘要:Shuffle过程 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,也实现了shuffle的逻辑。 阅读全文
posted @ 2018-02-03 11:54 淼淼之森 阅读(264) 评论(0) 推荐(0) 编辑
摘要:Spark内存管理机制 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。 在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Execut 阅读全文
posted @ 2018-02-03 11:54 淼淼之森 阅读(1473) 评论(0) 推荐(3) 编辑
摘要:Spark的核心RDD (Resilient Distributed Datasets弹性分布式数据集) 原文链接:http://www.cnblogs.com/yjd_hycf_space/p/7681585.html 铺垫 主角 首先我们来思考一个问题吧:Spark的计算模型是如何做到并行的呢? 阅读全文
posted @ 2018-02-02 18:22 淼淼之森 阅读(338) 评论(0) 推荐(0) 编辑
摘要:Spark的核心RDD Resilient Distributed Datasets(弹性分布式数据集) Spark运行原理与RDD理论 Spark与MapReduce对比,MapReduce的计算和迭代是基于磁盘的,而Spark的迭代和计算是尽量基于内存,只有在内存空间不能容纳计算结果时才将溢出的 阅读全文
posted @ 2018-01-11 11:52 淼淼之森 阅读(1991) 评论(0) 推荐(1) 编辑
摘要:文中的所有操作都是在之前的文章spark集群的搭建基础上建立的,重复操作已经简写; 之前的配置中使用了master01、slave01、slave02、slave03; 本篇文章还要添加master02和CloudDeskTop两个节点,并配置好运行环境; 一、流程: 1、在搭建高可用集群之前需要先 阅读全文
posted @ 2018-01-10 09:04 淼淼之森 阅读(3606) 评论(0) 推荐(1) 编辑
摘要:写此篇文章之前,已经搭建好spark集群并测试成功; spark集群搭建文章链接:http://www.cnblogs.com/mmzs/p/8193707.html 一、启动环境 由于每次都要启动,比较麻烦,所以博主写了个简单的启动脚本:第一个在root用户下,第二个在hadoop用户下执行; # 阅读全文
posted @ 2018-01-09 08:36 淼淼之森 阅读(11853) 评论(4) 推荐(3) 编辑
摘要:文中的所有操作都是在之前的文章scala的安装及使用文章基础上建立的,重复操作已经简写; 配置中使用了master01、slave01、slave02、slave03; 一、虚拟机中操作(启动网卡)sh /install/initNetwork.shifup eth0 二、基础配置(主机名、IP配置 阅读全文
posted @ 2018-01-08 08:30 淼淼之森 阅读(2730) 评论(0) 推荐(0) 编辑
摘要:前提你的集群机器已经安装好jdk1.7.0_79、hadoop-2.7.3; 配置中使用了master01、slave01、slave02、slave03; 文中的所有操作都是在之前的文章http://www.cnblogs.com/mmzs/p/8031129.html基础上建立的,重复操作已经简 阅读全文
posted @ 2018-01-07 10:16 淼淼之森 阅读(1519) 评论(0) 推荐(0) 编辑

  👉转载请注明出处和署名