tovin - 博客园

2014年8月21日

摘要：原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3903478.html 本文将以一个简单的WordCount为例来看看Job的提交过程由输出的日志可以看出job的提交过程主要经过了SparkContext-》DAGSchedul... 阅读全文

posted @ 2014-08-21 15:46 tovin 阅读(1483) 评论(1) 推荐(0)

2014年8月4日

Oozie安装与部署

摘要：原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3885162.html安装基础环境: Hadoop – 2.2.0 Linux – Centos 6.4 Java – 1.7.0_51 Maven – 3.2.1 （... 阅读全文

posted @ 2014-08-04 11:22 tovin 阅读(3501) 评论(0) 推荐(0)

2014年8月1日

Spark源码分析（三）-TaskScheduler创建

摘要：原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3879151.html 在SparkContext创建过程中会调用createTaskScheduler函数来启动TaskScheduler任务调度器，本文就详细分析TaskScheduler的工作原... 阅读全文

posted @ 2014-08-01 10:41 tovin 阅读(1457) 评论(0) 推荐(0)

2014年7月29日

Spark源码分析（二）-SparkContext创建

摘要：原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3872785.html SparkContext是应用启动时创建的Spark上下文对象，是一个重要的入口类。本文主要分析下在SparkContext类创建过程中进行的一些重要操作： 1、创建SparkC... 阅读全文

posted @ 2014-07-29 21:57 tovin 阅读(1963) 评论(0) 推荐(0)

2014年7月25日

Spark源码分析环境搭建

摘要：原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3868718.html 本文主要分享一下如何构建Spark源码分析环境。以前主要使用eclipse来阅读源码的，但是针对用scala写的spark来说不是太方便。最近开始转向使用idea 首先http:... 阅读全文

posted @ 2014-07-25 18:27 tovin 阅读(682) 评论(0) 推荐(0)

2014年7月24日

Spark源码分析（一）-Standalone启动过程

摘要：原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3858065.html 为了更深入的了解spark，现开始对spark源码进行分析，本系列文章以spark 1.0.0版本源码作为分析对象。今天主要分析下standalone部署方式的启动过程 1、... 阅读全文

posted @ 2014-07-24 17:14 tovin 阅读(2737) 评论(0) 推荐(1)

2014年7月9日

浅谈Spark Kryo serialization

摘要：原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3833985.html 最近在使用spark开发过程中发现当数据量很大时，如果cache数据将消耗很多的内存。为了减少内存的消耗，测试了一下Kryo serialization的使用代码包含三个类，Kryo... 阅读全文

posted @ 2014-07-09 17:07 tovin 阅读(10065) 评论(0) 推荐(1)

2014年7月8日

Spark基础与Java Api介绍

摘要：原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3832405.html一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台，它克服了MapReduce在迭代式计算和交互式计算方面的不足。相比于MapRed... 阅读全文

posted @ 2014-07-08 21:28 tovin 阅读(24636) 评论(0) 推荐(0)

2014年7月7日

RHadoop计算平台搭建

摘要：原创文章，转载请注明：转载自www.cnblogs.com/tovin/p/3824554.html本文基于CentOS6.4系统介绍基于RHadoop平台的搭建，Hadoop的搭建可以参考http://www.cnblogs.com/tovin/p/3818908.html，以下着重介绍在Had... 阅读全文

posted @ 2014-07-07 20:12 tovin 阅读(2210) 评论(20) 推荐(0)

2014年7月4日

基于Eclipse的scala应用开发

摘要：原创文章，转载请注明：转载自www.cnblogs.com/tovin/p/3823968.html为了更好的学习scala语言，本文介绍如何基于Maven来构建scala项目1、首先参照www.cnblogs.com/tovin/p/3822985.html这篇文章搭建基于eclipse的sca... 阅读全文

posted @ 2014-07-04 11:28 tovin 阅读(459) 评论(0) 推荐(0)