随笔分类 - 大数据
大数据(十八) -- Hive简介
摘要:Hive--构建数据仓库的工具为什么会出现Hive(Why?)什么是Hive(What?)Hive数据处理流程(How)Hive架构Hive解析SQL的过程为什么会出现Hive(Why?) 话是这么说的: “懒人推动科技的发展”. Hive的出现都是因为人...
阅读全文
大数据(十三)--初识SparkCore之RDD(弹性分布式数据集)&Operation(算子)
摘要:RDDRDD背景RDD介绍Operation介绍RDD五大特性 在开始学习Spark工作原理之前, 先来介绍一下Spark中两个最为重要的概念-- 弹性分布式数据集(Resilient Distributed Datasets, RDD) 和算子(Oper...
阅读全文
大数据(十二) --使用MapReduce和SparkCore技术实现单词统计(WorldCount)案例
摘要:WorldCount案例案例说明计算分析MapReduce的Java实现SparkCore的Scala实现案例说明 大数据分析处理万变不离其宗, 核心思想就是一个WorldCount–单词统计. 单词统计, 顾名思义就是将一个文件中出现的所有单词读一遍, ...
阅读全文
大数据(十一)--Spark概述
摘要:Spark概述Spark 简介Spark 历史Spark 技术栈Spark相较于Hadoop的优点Spark 简介 Spark官网为: http://spark.apache.org/, Spark也是用于海量数据处理的计算框架. 官方对Spark的定义是...
阅读全文
大数据(十)--Scala编程语言-提高
摘要:ScalaScala字符串Scala 集合1. 数组2. list3. set4. Map4.1 创建map集合4.2 map遍历4.3 Map合并4.4 Map其他常见方法5. 元组trait特性模式匹配match-case样例类case classes并...
阅读全文
大数据(九)--Scala编程语言-安装+基础
摘要:ScalaScala介绍Scala安装1. windows下安装, 环境配置2. Scala-IDEA3. IntelliJ IDEA中安装Scala插件4. IntelliJ IDEA-2017.3版本中创建Scala项目Scala基础1. 数据类型2. ...
阅读全文
大数据(八) --MapReduce运行架构, Yarn资源调度流程
摘要:MapReduce运行架构前言Hadoop1.x版本Hadoop2.x版本Yarn资源调度流程:前言 某天, 某研究机构设计了一款私人飞机图纸, 之后某公司根据该图纸制作出一架私人飞机. 然后某位有钱人士觉得这架飞机非常好, 就花高价钱买下这架飞机. 飞机...
阅读全文
大数据(七) --分布式计算框架(MapReduce)
摘要:MapReduce分布式计算思想思想引入MapReduce处理流程MapReduce概述MapReduce的定义MapReduce的优缺点分布式计算思想思想引入首先, 来看三个问题:假设有1T的文件, 文件中的每一行都是一个数字; 如何在一台48core, ...
阅读全文
大数据(六) --Hadoop简介
摘要:Hadoop生态圈What is Hadoop?Hadoop思想来源Hadoop的历史三大发行版本Hadoop的优势Hadoop的组成Hadoop1.*和2.*的区别Hadoop组成HDFSYarnMapReduce大数据技术生态体系What is Hado...
阅读全文
大数据(五) --完全分布式搭建
摘要:说明 搭建之前, 先根据HDFS三种模式一文将集群的初始环境配置OK.完全分布式搭建在node01节点上将上传的Hadoop压缩包解压这里我将文件解压到/opt/software/hadoop文件夹下.tar -zxf hadoop-2.6.5.tar...
阅读全文
大数据(四) --伪分布式搭建
摘要:说明 搭建之前, 先根据HDFS三种模式一文将集群的初始环境配置好.伪分布式搭建将上传的Hadoop压缩包解压这里我将文件解压到/opt/software/hadoop文件夹下.tar -zxf hadoop-2.6.5.tar.gz -C /opt/...
阅读全文
大数据(三) --HDFS搭建的三种模式
摘要:HDFS搭建的三种模式搭建前说明伪分布式模型说明集群规划搭建步骤完全分布式模式说明集群规划搭建步骤高可用(HighAvailable)模式说明集群规划搭建步骤搭建前准备的环境本地机环境准备安装包虚拟机工具连接工具上传工具CentOS虚拟机环境静态IP配置时间...
阅读全文
大数据(二) --分布式文件系统(HDFS)
摘要:分布式文件存储分布式引入基本的HDFS写操作备份机制写数据的详细流程HDFS读操作元数据持久化安全模式HDFS总结HDFS角色HDFS机制HDFS流程HDFS优缺点优点缺点分布式引入 大数据时代的到来, 数据的增长呈现爆炸式的状态. 数据的大小从原来...
阅读全文
大数据(一) --大数据概述
摘要:大数据概述大数据兴起的背景 --第三次信息化浪潮技术支撑数据产生方式的变革。什么是大数据?大数据特性大数据的几个来源大数据带来思维方式的转变:关键技术:典型计算模式大数据兴起的背景 --第三次信息化浪潮技术支撑硬盘存储容量增加;CPU计算速度提高;网络带...
阅读全文
浙公网安备 33010602011771号