随笔分类 -  spark

摘要:I read the section Metrics on spark website. I wish to try it on the wordcount example, I can't make it work. spark/conf/metrics.properties : I run my 阅读全文
posted @ 2016-09-18 17:03 大数据从业者FelixZh 阅读(632) 评论(0) 推荐(0)
摘要:监控Spark应用有很多种方法。Web接口每一个SparkContext启动一个web UI用来展示应用相关的一些非常有用的信息,默认在4040端口。这些信息包括:任务和调度状态的列表RDD大小和内存使用的统计信息正在运行的executor的信息环境信息你可以在浏览器中打开http://<drive 阅读全文
posted @ 2016-09-18 13:36 大数据从业者FelixZh 阅读(9229) 评论(0) 推荐(1)
摘要:Spark 指南 Spark 是继 Hadoop 之后新一代的大数据分布式处理平台。它是一个基于内存、容错型的分布式计算引擎,与 Hadoop MapReduce 相比,计算速度要快100倍。 Spark 卓越的用户体验以及统一的技术堆栈基本上解决了大数据领域所有的核心问题,使得 Spark 迅速成 阅读全文
posted @ 2016-09-18 11:51 大数据从业者FelixZh 阅读(893) 评论(0) 推荐(0)
摘要:Centos 6.5 x64 jdk 1.7 scala 2.10 maven 3.3.3 cd spark-1.6 export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" mvn -Dhadoop 阅读全文
posted @ 2016-01-10 19:13 大数据从业者FelixZh 阅读(775) 评论(0) 推荐(0)
摘要:当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark Summit China在北京召开,场面火爆;同年,Spark Meetup在北京、上海、深圳和杭州四个城市举办,其中仅北京就成功举办了5次,内容更涵盖Spark Core、Spark Streaming、Spark MLli... 阅读全文
posted @ 2016-01-10 13:22 大数据从业者FelixZh 阅读(560) 评论(0) 推荐(0)
摘要:问题导读:1、如何对Spark1.0.0源码编译?2、如何生成Spark1.0的部署包?3、如何获取包资源?Spark1.0.0的源码编译和部署包生成,其本质只有两种:Maven和SBT,只不过针对不同场景而已:Maven编译SBT编译IntelliJ IDEA编译(可以采用Maven或SBT插件编... 阅读全文
posted @ 2016-01-08 19:52 大数据从业者FelixZh 阅读(527) 评论(0) 推荐(0)
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、编译SparkSpark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种... 阅读全文
posted @ 2016-01-08 19:51 大数据从业者FelixZh 阅读(297) 评论(0) 推荐(0)
摘要:2014Spark峰会在美国旧金山举行,与会数据库平台供应商DataStax宣布,与Spark供应商Databricks合作,在它的旗舰产 品 DataStax Enterprise 4.5 (DSE)中,将Cassandra NoSQL数据库与Apache Spark开源引擎相结合,为用户提供基于... 阅读全文
posted @ 2015-11-20 11:36 大数据从业者FelixZh 阅读(1316) 评论(0) 推荐(0)
摘要:问题导读1.在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件?2.在Standalone部署模式下分为几种模式?3.在client模式和cluster模式下有什么不同?概要在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件,这些临时目录和... 阅读全文
posted @ 2015-11-20 11:18 大数据从业者FelixZh 阅读(398) 评论(0) 推荐(0)
摘要:1、Spark介绍Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,Spark在Daytona Gray Sort 100TB Be... 阅读全文
posted @ 2015-11-18 18:23 大数据从业者FelixZh 阅读(1594) 评论(0) 推荐(0)
摘要:实习后面需要用到spark,虽然之前跟了edX的spark的课程以及用spark进行machine learning,但那个环境是官方已经搭建好的,但要在自己的系统里将PySpark导入shell(或在Python里可以import pyspark)还是需要做一些操作的。(下图,忘了先define一... 阅读全文
posted @ 2015-11-18 11:27 大数据从业者FelixZh 阅读(5500) 评论(0) 推荐(0)
摘要:概述hadoop2.7.1 spark 1.5.1192.168.31.62 resourcemanager, namenode, master192.168.31.63 nodemanager, datanode, worker192.168.31.64 nodemanager, datan... 阅读全文
posted @ 2015-11-11 17:12 大数据从业者FelixZh 阅读(623) 评论(0) 推荐(0)
摘要:在hadoop/bin目录下有yarn命令yarn application -kill 阅读全文
posted @ 2015-11-11 16:44 大数据从业者FelixZh 阅读(671) 评论(0) 推荐(0)
摘要:概述Spark 应用由driver program 组成,driver program运行用户的主函数,在集群内并行执行各种操作主要抽象RDD: spark提供RDD,是贯穿整个集群中所有节点的分区元素的集合,能够被并行操作。RDDS来源: 1.Hadoop文件系统或支持Hadoop的文件系统... 阅读全文
posted @ 2015-11-05 13:43 大数据从业者FelixZh 阅读(336) 评论(0) 推荐(0)

大数据从业者