• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
皎陽
博客园    首页    新随笔    联系   管理    订阅  订阅

随笔分类 -  BigData

Spark:一个高效的分布式计算系统

摘要:概述 什么是Spark ◆ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可 阅读全文
posted @ 2016-02-26 14:31 皎陽
利用Scala语言开发Spark应用程序

摘要:Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉,可 以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习。 本文将介绍3个Scala Spark编 阅读全文
posted @ 2016-02-26 14:17 皎陽
Spark:利用Eclipse构建Spark集成开发环境

摘要:前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上,介绍如何利用Eclipse构建Spark集成开发环境。 (1) 准备工作 在正式介绍之前,先要以下 阅读全文
posted @ 2016-02-26 14:16 皎陽
大数据计算平台Spark内核解读

摘要:1、Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着 Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,Spark在Daytona Gray Sort 100TB 阅读全文
posted @ 2016-02-26 14:11 皎陽

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3