摘要: 1. MapReduce入门 1.1 MapReduce的思想 MapReduce的思想核心是"分而治之" , 适用于大量的复杂的任务处理场景 (大规模数据处理场景) . Map负责"分" , 即把复杂的任务分解为若干个"简单的任务"来进行处理. 可以进行拆分的前提是这些小任务并行计算, 彼此间几乎 阅读全文
posted @ 2019-12-05 21:21 大数据界第一ADC 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 1. HDFS入门 1.1 HDFS基本概念 HDFS是Hadoop Distribute File System的简称, 意为: Hadoop分布式文件系统. 是Hadoop三大核心组件之一, 作为最底层的分布式存储服务而存在, 是Hadoop领域最基础的部分. 分布式文件系统解决的问题就是大数据 阅读全文
posted @ 2019-12-02 21:35 大数据界第一ADC 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 1. Apache Hadoop 1.1 Hadoop介绍 Hadoop是Apache旗下的一个用java语言实现的开源软件框架, 是一个开发和运行处理大规模数据的软件平台. 允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理. Hadoop不会跟某种具体的行业或者某个具体的业务挂钩 阅读全文
posted @ 2019-11-29 20:45 大数据界第一ADC 阅读(577) 评论(0) 推荐(0) 编辑
摘要: 1. 大数据是什么? 1.1 大数据就是4V的特征 Volume (大量) , Velocity (高速) , Variety (多样) , Value (价值) , 即数据体量巨大, 数据类型繁多, 价值密度低, 处理速度快. 1.2 JavaEE开发与大数据的区别 1.2.1 JavaEE开发流 阅读全文
posted @ 2019-11-27 21:01 大数据界第一ADC 阅读(522) 评论(0) 推荐(0) 编辑
摘要: 1. 什么是Flink? 1.1 4代大数据计算引擎 第一代: MapReducer 批处理 Mapper, Reducer Hadoop的MapReducer将计算分为两个阶段, 分别为Map和Reducer. 对于上层应用来说, 就不得不想方设法去拆分算法, 甚至于不得不在上层应用实现多个Job 阅读全文
posted @ 2019-11-17 16:28 大数据界第一ADC 阅读(416) 评论(1) 推荐(0) 编辑