2015 年 8月随笔档案 - shishanyuan

Spark入门实战系列--6.SparkSQL（下）--Spark实战应用

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、运行环境说明1.1硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-812388l 虚... 阅读全文

posted @ 2015-08-31 09:45 shishanyuan 阅读(31208) 评论(12) 推荐(4) 编辑

Spark入门实战系列--6.SparkSQL（中）--深入了解SparkSQL运行计划及调优

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1.1 运行环境说明1.1.1硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-81238... 阅读全文

posted @ 2015-08-27 06:59 shishanyuan 阅读(18720) 评论(0) 推荐(4) 编辑

Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、SparkSQL的发展历程1.1Hive and SharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运... 阅读全文

posted @ 2015-08-26 09:03 shishanyuan 阅读(142414) 评论(31) 推荐(21) 编辑

Spark入门实战系列--5.Hive（下）--Hive实战

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、Hive操作演示1.1内部表1.1.1创建表并加载数据第一步启动HDFS、YARN和Hive，启动完毕后创建Hive数据库hive>create database hive;hive>show dat... 阅读全文

posted @ 2015-08-24 08:50 shishanyuan 阅读(15729) 评论(2) 推荐(5) 编辑

Spark入门实战系列--5.Hive（上）--Hive介绍及部署

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、Hive介绍1.1Hive介绍Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL语... 阅读全文

posted @ 2015-08-20 08:56 shishanyuan 阅读(14651) 评论(12) 推荐(4) 编辑

Spark入门实战系列--4.Spark运行架构

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、 Spark运行架构1.1术语定义lApplication：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Spark应用程序，包含了一个Driver... 阅读全文

posted @ 2015-08-19 06:51 shishanyuan 阅读(36870) 评论(11) 推荐(8) 编辑

Spark入门实战系列--3.Spark编程模型（下）--IDEA搭建及实战

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、安装IntelliJ IDEAIDEA 全称 IntelliJ IDEA，是java语言开发的集成环境，IntelliJ在业界被公认为最好的java开发工具之一，尤其在智能代码助手、代码自动提示、重构... 阅读全文

posted @ 2015-08-17 09:09 shishanyuan 阅读(33241) 评论(13) 推荐(4) 编辑

Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、Spark编程模型1.1术语定义l应用程序（Application）：基于Spark的用户程序，包含了一个Driver Program 和集群中多个的Executor；l驱动程序（Driver Pro... 阅读全文

posted @ 2015-08-13 08:53 shishanyuan 阅读(35718) 评论(10) 推荐(6) 编辑

Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、编译SparkSpark可以通过SBT和Maven两种方式进行编译，再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具，而Maven安装则需要maven工具，两种... 阅读全文

posted @ 2015-08-12 08:36 shishanyuan 阅读(27879) 评论(60) 推荐(5) 编辑

Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、编译Hadooop1.1搭建环境1.1.1安装并设置maven1.下载maven安装包，建议安装3.0以上版本，本次安装选择的是maven3.0.5的二进制包，下载地址如下http://mirror.b... 阅读全文

posted @ 2015-08-10 06:42 shishanyuan 阅读(21464) 评论(25) 推荐(4) 编辑

Spark入门实战系列--2.Spark编译与部署（上）--基础环境搭建

摘要：【注】 1、该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取； 2、Spark编译与部署将以CentOS 64位操作系统为基础，主要是考虑到实际应用一般使用64位操作系统，内容分为三部分：基础环境搭建、Hadoop编译安装和Spark编译安装，该环境作为后续实阅读全文

posted @ 2015-08-05 08:50 shishanyuan 阅读(37481) 评论(10) 推荐(12) 编辑

Spark入门实战系列--1.Spark及其生态圈简介

摘要：【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、简介1.1Spark简介Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Ap... 阅读全文

posted @ 2015-08-04 09:11 shishanyuan 阅读(62033) 评论(13) 推荐(24) 编辑

倾情大奉送--Spark入门实战系列

摘要：这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再到编程模型、运行架构，最后介绍其组件SparkSQL、Spark Streaming、Spark MLi 阅读全文

posted @ 2015-08-03 16:38 shishanyuan 阅读(128643) 评论(67) 推荐(56) 编辑

石山园

08 2015 档案

公告