随笔分类 -  20.Spark入门实战系列

围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者,在实战中多截图,还请谅解。为了大家实验方便,在这里把实验相关的测试数据和安装包放在百度盘提供下载。
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Tachyon介绍1.1Tachyon简介随着实时计算的需求日益增多,分布式内存计算也持续升温,怎样将海量数据近乎实时地处理,或者说怎样把离线批处理的速度再提升到一个新的高度是当前研究的重点。近年来,内... 阅读全文
posted @ 2015-09-16 08:57 shishanyuan 阅读(5756) 评论(5) 推荐(5) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、GraphX介绍1.1GraphX应用背景Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知·,... 阅读全文
posted @ 2015-09-14 08:59 shishanyuan 阅读(55374) 评论(1) 推荐(9) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、MLlib实例1.1聚类实例1.1.1算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之... 阅读全文
posted @ 2015-09-10 08:41 shishanyuan 阅读(68045) 评论(23) 推荐(9) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、机器学习概念1.1机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通... 阅读全文
posted @ 2015-09-09 07:05 shishanyuan 阅读(46721) 评论(7) 推荐(3) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、实例演示1.1流数据模拟器1.1.1流数据说明在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号... 阅读全文
posted @ 2015-09-07 07:01 shishanyuan 阅读(27364) 评论(14) 推荐(4) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Spark Streaming简介1.1概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、... 阅读全文
posted @ 2015-09-01 06:51 shishanyuan 阅读(106513) 评论(7) 推荐(13) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、运行环境说明1.1硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚... 阅读全文
posted @ 2015-08-31 09:45 shishanyuan 阅读(31207) 评论(12) 推荐(4) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1.1 运行环境说明1.1.1硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-81238... 阅读全文
posted @ 2015-08-27 06:59 shishanyuan 阅读(18720) 评论(0) 推荐(4) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、SparkSQL的发展历程1.1Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运... 阅读全文
posted @ 2015-08-26 09:03 shishanyuan 阅读(142413) 评论(31) 推荐(21) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Hive操作演示1.1内部表1.1.1创建表并加载数据第一步 启动HDFS、YARN和Hive,启动完毕后创建Hive数据库hive>create database hive;hive>show dat... 阅读全文
posted @ 2015-08-24 08:50 shishanyuan 阅读(15728) 评论(2) 推荐(5) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Hive介绍1.1Hive介绍Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语... 阅读全文
posted @ 2015-08-20 08:56 shishanyuan 阅读(14650) 评论(12) 推荐(4) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、 Spark运行架构1.1术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver... 阅读全文
posted @ 2015-08-19 06:51 shishanyuan 阅读(36868) 评论(11) 推荐(8) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、 安装IntelliJ IDEAIDEA 全称 IntelliJ IDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构... 阅读全文
posted @ 2015-08-17 09:09 shishanyuan 阅读(33241) 评论(13) 推荐(4) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Spark编程模型1.1术语定义l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;l驱动程序(Driver Pro... 阅读全文
posted @ 2015-08-13 08:53 shishanyuan 阅读(35716) 评论(10) 推荐(6) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、编译SparkSpark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种... 阅读全文
posted @ 2015-08-12 08:36 shishanyuan 阅读(27879) 评论(60) 推荐(5) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、编译Hadooop1.1搭建环境1.1.1安装并设置maven1.下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载地址如下http://mirror.b... 阅读全文
posted @ 2015-08-10 06:42 shishanyuan 阅读(21464) 评论(25) 推荐(4) 编辑
摘要:【注】 1、该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取; 2、Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建、Hadoop编译安装和Spark编译安装,该环境作为后续实 阅读全文
posted @ 2015-08-05 08:50 shishanyuan 阅读(37478) 评论(10) 推荐(12) 编辑
摘要:【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、简介1.1Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Ap... 阅读全文
posted @ 2015-08-04 09:11 shishanyuan 阅读(62031) 评论(13) 推荐(24) 编辑
摘要:这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLi 阅读全文
posted @ 2015-08-03 16:38 shishanyuan 阅读(128639) 评论(67) 推荐(56) 编辑