随笔分类 -  Spark

spark相关知识的学习整理
hive中partition如何使用
摘要:网上有篇关于hive的partition的使用讲解的比较好,转载了: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分 阅读全文
posted @ 2017-11-23 15:47 csguo 阅读(26110) 评论(0) 推荐(0)
Spark(1.6.1) Sql 编程指南+实战案例分析
摘要:首先看看从官网学习后总结的一个思维导图 概述(Overview) Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。 开始Spark SQL Spark SQL中所有功能的入口点是SQLContext类,或 阅读全文
posted @ 2017-11-08 14:23 csguo 阅读(2346) 评论(0) 推荐(0)
Spark 算子
摘要:RDD算子分类,大致可以分为两类,即: Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。 Action:行动算子,这类算子会触发SparkContext提交Job作业。 一:Transformation:转换算子 1.map map是对RDD中的每个元素都执行 阅读全文
posted @ 2017-11-08 13:43 csguo 阅读(1093) 评论(0) 推荐(0)
Spark程序本地运行
摘要:Spark程序本地运行 本次安装是在JDK安装完成的基础上进行的! SPARK版本和hadoop版本必须对应!!! spark是基于hadoop运算的,两者有依赖关系,见下图: 前言: 1.环境变量配置: 1.1 打开“控制面板”选项 1.2.找到“系统”选项卡 1.3.点击“高级系统设置” 1.4 阅读全文
posted @ 2017-11-07 18:31 csguo 阅读(6216) 评论(0) 推荐(0)
Spark Shell简单使用
摘要:基础 Spark的shell作为一个强大的交互式数据分析工具,提供了一个简单的方式学习API。它可以使用Scala(在Java虚拟机上运行现有的Java库的一个很好方式)或Python。在Spark目录里使用下面的方式开始运行: [plain] view plain copy ./bin/spark 阅读全文
posted @ 2017-10-30 10:53 csguo 阅读(31209) 评论(0) 推荐(1)
Spark简介安装和简单例子
摘要:Spark简介 Spark是一种快速、通用、可扩展的大数据分析引擎,目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。简单来说Spark是 内存迭代计 阅读全文
posted @ 2017-10-29 14:19 csguo 阅读(719) 评论(0) 推荐(0)
SparkSQL简介
摘要:1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量 阅读全文
posted @ 2017-10-29 12:07 csguo 阅读(1965) 评论(0) 推荐(0)