大数据 - 随笔分类 - USTC丶ZCC

Spark性能优化指南

摘要：写在前面：在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多阅读全文

posted @ 2020-09-26 10:59 USTC丶ZCC 阅读(330) 评论(0) 推荐(0)

HDFS的基本了解

摘要：一.什么是HDFSHDFS（Hadoop Distributed File System ）Hadoop 分布式文件系统。是基于流数据模式访问和处理超大文件的需求而开发的。HDFS思想就是分而治之再综合的过程，但是对于我们使用者来说是透明的，就像我们使用Windows的文件系统一样，只需要知道你要阅读全文

posted @ 2020-07-14 11:01 USTC丶ZCC 阅读(755) 评论(0) 推荐(0)

Spark和MapReduce(MR)的区别

摘要：首先Spark是借鉴了mapreduce并在其基础上发展起来的，继承了其分布式计算的优点并改进了mapreduce明显的缺陷，但是二者也有不少的差异具体如下： MR是基于进程，spark是基于线程 Spark的多个task跑在同一个进程上，这个进程会伴随spark应用程序的整个生命周期，即使没有作业阅读全文

posted @ 2020-07-14 10:39 USTC丶ZCC 阅读(788) 评论(0) 推荐(0)

hadoop基础概念之Hadoop核心组件

摘要：认知和学习Hadoop，我们必须得了解Hadoop的构成，下面通过Hadoop构件、大数据处理流程，Hadoop核心三个方面进行一下介绍： hadoop中有3个核心组件：分布式文件系统：HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架：MAPREDUCE —— 实现在很多机阅读全文

posted @ 2020-07-14 10:18 USTC丶ZCC 阅读(1140) 评论(0) 推荐(0)

MapReduce运行原理和过程

摘要：一.Map的原理和运行流程 Map的输入数据源是多种多样的，我们使用hdfs作为数据源。文件在hdfs上是以block(块，Hdfs上的存储单元)为单位进行存储的。 1.分片我们将这一个个block划分成数据分片，即Split（分片，逻辑划分，不包含具体数据，只包含这些数据的位置信息）,那么上图中阅读全文

posted @ 2020-07-06 14:16 USTC丶ZCC 阅读(812) 评论(0) 推荐(0)

朱超超

随笔分类 - 大数据

公告