大数据 - 随笔分类 - 雨中漫步人生

Sqoop组件详解

摘要：1、概述¶ Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql、oracle...)间进行数据的传递。其原理是导入和导出动作翻译成mapreduce程序来实现，在翻译出的mapreduce中主要是对inputformat和outputfor 阅读全文

posted @ 2021-01-12 16:48 雨中漫步人生

大数据之Spark SQL

摘要：1、Spark SQL简介¶ 说SparkSql之前，就不得不说下它的前身-Shark。首先，Hive是一个基于Hadoop的数据仓库工具，用户可以通过HiveQL语句将其转化为MapReduce任务来运行。其主要过程是用户输入HiveQL语句，进入到驱动模块后编译器会进行解析辨析，并有优化器对该操阅读全文

posted @ 2020-04-16 18:07 雨中漫步人生

YARN的运行原理

摘要：1、YARN的基本概述¶ Apache Hadoop YARN（Yet Another Resource Negotiator，另一种资源协调者）是一种新的Hadoop资源管理器，它是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。它的出现解决了旧版本MapReduce的很多阅读全文

posted @ 2020-04-13 15:54 雨中漫步人生

Spark之基本原理

摘要：1、Spark基本特性¶ 1.高效性。Spark是基于内存的计算框架，数据处理过程中是将中间数据集放到内存中，运行速度提高100倍。 2.通用性。Spark提供了统一的解决方案。Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即时查询、MLlib 阅读全文

posted @ 2020-04-12 22:08 雨中漫步人生

Hive中join关键字运行机制及使用详解

摘要：1、join关键字的原理和机制¶ Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。 1.1 Hive Common Join¶ 如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会默认把执行Comm 阅读全文

posted @ 2020-01-02 19:01 雨中漫步人生

Hive数据倾斜及优化方案

摘要：1、数据倾斜概述¶ 1.1 什么是数据倾斜？¶ 由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。主要现象是任务进度长时间维持在99%的附近。 1.2 数据倾斜情况¶ 查看任务监控页面，发现只有少量 reduce子任务未完成，因为其处理的数据量和其他的reduce差异过大。单一reduce 阅读全文

posted @ 2020-01-01 16:24 雨中漫步人生

MapReduce运行原理详解

摘要：1、MapReduce简介¶ 定义:MapReduce是一个用于处理海量数据的分布式计算框架。特点:数据分布式存储（HDFS）、作业调度（任务分配、进出规则）、容错（故障处理）、机器间通信（服务器通信协调）等。举个简单的例子：比如说有一堆钞票，面值大小为10 50 100，103个人来统计各种面阅读全文

posted @ 2019-12-31 18:03 雨中漫步人生

hive之insert导入分区数据

摘要：数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间，主要包括两种分区形式：水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区，一般是通过对表的垂直划分来减少目标表的宽度，常用的是水平分区。 1、分区参数介绍¶ hive.exec.dynamic.par 阅读全文

posted @ 2019-12-31 16:31 雨中漫步人生

欢迎来到“雨中漫步”的博客

二八定律，少即是多。

随笔分类 - 大数据

公告