牧梦者

2018年7月13日

Spark源码剖析 - SparkContext的初始化(三)_创建并初始化Spark UI

摘要： 3. 创建并初始化Spark UI 任何系统都需要提供监控功能，用浏览器能访问具有样式及布局并提供丰富监控数据的页面无疑是一种简单、高效的方式。SparkUI就是这样的服务。在大型分布式系统中，采用事件监听机制是最常见的。为什么要使用事件监听机制？假如SparkUI采用Scala的函数调用方式，那阅读全文

posted @ 2018-07-13 16:52 牧梦者阅读(534) 评论(0) 推荐(0)

2018年7月9日

Spark设计理念与基本架构

摘要： 1.基本概念 Spark中的一些概念： RDD(resillient distributed dataset)：弹性分布式数据集。 Partition：数据分区。即一个RDD的数据可以划分为多少个分区。 NarrowDependency：窄依赖，即子RDD依赖于父RDD中固定的Partition。N 阅读全文

posted @ 2018-07-09 19:52 牧梦者阅读(2253) 评论(0) 推荐(1)

2018年7月6日

Spark源码解析 - Spark-shell浅析

摘要： 1.准备工作 1.1 安装spark，并配置spark-env.sh 使用spark-shell前需要安装spark，详情可以参考http://www.cnblogs.com/swordfall/p/7903678.html 如果只用一个节点，可以不用配置slaves文件，spark-env.sh文阅读全文

posted @ 2018-07-06 18:08 牧梦者阅读(3418) 评论(0) 推荐(2)

2018年7月3日

Spark Submitting Applications浅析

摘要： Submitting Applications提交应用程序在spark的bin目录下spark-submit脚本被用于在集群中启动应用程序。它可以通过一个统一的接口来使用Spark支持的所有集群管理器（目前Spark支持的集群模式有自带的Standalone、Apache Mesos、Hadoop 阅读全文

posted @ 2018-07-03 19:16 牧梦者阅读(4049) 评论(0) 推荐(0)

2018年5月12日

Spark SQL基本概念与基本用法

摘要： 1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。 1.2 为阅读全文

posted @ 2018-05-12 03:04 牧梦者阅读(27502) 评论(0) 推荐(1)

2018年5月8日

Spark RDD基本概念与基本用法

摘要： 1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错，位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集阅读全文

posted @ 2018-05-08 01:59 牧梦者阅读(1548) 评论(2) 推荐(0)

2018年5月6日

Storm基本原理概念及基本使用

摘要： 1. 背景介绍 1.1 离线计算是什么离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示；代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据 1.2 流式计算是什么流式计算：数据实时产生、数据实时传输、数据实时计算、实时阅读全文

posted @ 2018-05-06 17:42 牧梦者阅读(587) 评论(0) 推荐(0)

2018年5月1日

Hive基本命令解析

摘要： 1. Hive的分区作用命令：创建分区往分区中插入数据：load data local inpath '/home/hadoop/sz.dat' into table t_sz_part partition(country = 'China')；说明：首先，创建分区表的时候，需要通过关键字pa 阅读全文

posted @ 2018-05-01 14:57 牧梦者阅读(1225) 评论(0) 推荐(0)

2018年4月30日

Hadoop — Yarn原理解析

摘要： 1. 概述 Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台；而MapReduce等运算程序则相当运行于操作系统之上的应用程序。 2. YARN的重要概念 1、yarn并不清楚用户提交的程序的运行机制；2、yarn只提供运算资源的调度(用户程序向yarn申阅读全文

posted @ 2018-04-30 03:13 牧梦者阅读(882) 评论(0) 推荐(0)

2018年4月29日

Hadoop — MapReduce原理解析

摘要： 1. 概述 Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架； Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上； 1.1 MapReduce的诞生背景背景原因阅读全文

posted @ 2018-04-29 17:53 牧梦者阅读(1507) 评论(0) 推荐(1)

公告