Spark - 随笔分类 - csguo

hive中partition如何使用

摘要：网上有篇关于hive的partition的使用讲解的比较好，转载了：一、背景 1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分阅读全文

posted @ 2017-11-23 15:47 csguo 阅读(26110) 评论(0) 推荐(0)

Spark(1.6.1) Sql 编程指南+实战案例分析

摘要：首先看看从官网学习后总结的一个思维导图概述(Overview) Spark SQL是Spark的一个模块，用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames，也可以作为分布式SQL查询引擎。开始Spark SQL Spark SQL中所有功能的入口点是SQLContext类，或阅读全文

posted @ 2017-11-08 14:23 csguo 阅读(2346) 评论(0) 推荐(0)

Spark 算子

摘要：RDD算子分类，大致可以分为两类，即： Transformation：转换算子，这类转换并不触发提交作业，完成作业中间过程处理。 Action：行动算子，这类算子会触发SparkContext提交Job作业。一：Transformation：转换算子 1.map map是对RDD中的每个元素都执行阅读全文

posted @ 2017-11-08 13:43 csguo 阅读(1093) 评论(0) 推荐(0)

Spark程序本地运行

摘要：Spark程序本地运行本次安装是在JDK安装完成的基础上进行的！ SPARK版本和hadoop版本必须对应！！！ spark是基于hadoop运算的，两者有依赖关系，见下图：前言： 1.环境变量配置： 1.1 打开“控制面板”选项 1.2.找到“系统”选项卡 1.3.点击“高级系统设置” 1.4 阅读全文

posted @ 2017-11-07 18:31 csguo 阅读(6216) 评论(0) 推荐(0)

Spark Shell简单使用

摘要：基础 Spark的shell作为一个强大的交互式数据分析工具，提供了一个简单的方式学习API。它可以使用Scala(在Java虚拟机上运行现有的Java库的一个很好方式)或Python。在Spark目录里使用下面的方式开始运行： [plain] view plain copy ./bin/spark 阅读全文

posted @ 2017-10-30 10:53 csguo 阅读(31209) 评论(0) 推荐(1)

Spark简介安装和简单例子

摘要：Spark简介 Spark是一种快速、通用、可扩展的大数据分析引擎，目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。简单来说Spark是内存迭代计阅读全文

posted @ 2017-10-29 14:19 csguo 阅读(719) 评论(0) 推荐(0)

SparkSQL简介

摘要：1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量阅读全文

posted @ 2017-10-29 12:07 csguo 阅读(1965) 评论(0) 推荐(0)

随笔分类 - Spark