阿伟宝座

2022年2月17日

摘要： Hive的介绍一、大数据体系（1）同一系统，命令通用（2）数据库的四大特性：ACID 也就是事物的四大特性：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）二、Hive的概述 1、Hive是什么？ (1)Hive是阅读全文

posted @ 2022-02-17 23:02 阿伟宝座阅读(459) 评论(0) 推荐(0)

2022年2月16日

MapReduce在Yarn上执行流程、Yarn核心组件功能、模拟ApplicationMaster发送Task、Map端的join

摘要： MapReduce在Yarn上执行流程、Yarn核心组件功能、模拟ApplicationMaster发送Task、Map端的join MapReduce在Yarn上执行流程 Yarn核心组件功能模拟ApplicationMaster发送Task 在MR中，MapTask、ReduceTask 都是阅读全文

posted @ 2022-02-16 22:06 阿伟宝座阅读(81) 评论(0) 推荐(0)

MapReduce原理深入理解3----WordCount程序流程图解、combiner（合并）程序示例、InputSplit切片详解

摘要： MapReduce原理深入理解3 WordCount程序流程图解、combiner（合并）程序示例、3、InputSplit切片详解 1、WordCount示例程序处理流程图解 2、combiner（合并）程序示例 combiner，发生在map阶段，又叫做预聚合；相当于map端的Reduce，因阅读全文

posted @ 2022-02-16 21:49 阿伟宝座阅读(499) 评论(0) 推荐(0)

MapReduce原理深入理解2----Map、Shuffle、Reduce过程详解

摘要： MapReduce原理深入理解2 Map、Shuffle、Reduce过程详解 1、MR执行过程-map阶段 map任务处理 1.1 框架使用InputFormat类的子类--FileInputFormat把输入文件(夹)划分为很多InputSplit，默认，每个HDFS的block对应一个Inp 阅读全文

posted @ 2022-02-16 20:22 阿伟宝座阅读(681) 评论(0) 推荐(0)

MapReduce的代码编写----学生数据和总分数据关联（join）

摘要： MapReduce的代码编写学生数据和总分数据关联（join）程序代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs 阅读全文

posted @ 2022-02-16 19:12 阿伟宝座阅读(135) 评论(0) 推荐(0)

MapReduce的代码编写----统计学生的总分示例

摘要： MapReduce的代码编写统计学生的总分示例 score.txt 1500100001,1000001,98 1500100001,1000002,5 1500100001,1000003,137 1500100001,1000004,29 1500100001,1000005,85 15001 阅读全文

posted @ 2022-02-16 15:07 阿伟宝座阅读(381) 评论(0) 推荐(0)

MapReduce的代码编写----统计学生性别示例

摘要： MapReduce的代码编写统计学生性别示例 student.txt 1500100001,施笑槐,22,女,文科六班 1500100002,吕金鹏,24,男,文科六班 1500100003,单乐蕊,22,女,理科六班 1500100004,葛德曜,24,男,理科三班 1500100005,宣谷芹阅读全文

posted @ 2022-02-16 11:15 阿伟宝座阅读(445) 评论(0) 推荐(0)

2022年2月14日

MapReduce原理深入理解1----shuff过程

摘要： MapReduce原理深入理解 1、主要原理（1）Map任务的数量由切片splite决定；Reduce的数量默认是一个，但是可以手动设置（2）MapReduce的输入和输出是基于HDFS的文件；切片splite使用类TestInputFormat将文件中的数据转化为<k1,v1>格式, 此时的阅读全文

posted @ 2022-02-14 23:00 阿伟宝座阅读(226) 评论(0) 推荐(0)

MapReduce的代码编写----wordCount示例

摘要： MR的代码编写 1、导入依赖  <dependency> <groupId>org.apache.hadoop</gro 阅读全文

posted @ 2022-02-14 19:55 阿伟宝座阅读(337) 评论(0) 推荐(0)

2022年2月13日

Hadoop的分布式计算----MapReduce概述

摘要： Hadoop的分布式计算 MapReduce 什么是MapReduce？你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是： 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃，然后把这个数目汇报给你 3.你把所有玩家告阅读全文

posted @ 2022-02-13 19:45 阿伟宝座阅读(186) 评论(0) 推荐(0)

HDFS-HA搭建（一般用不到）

摘要： HDFS-HA搭建（一般用不到） 1、防火墙（搭建之前要关上） service firewalld stop 2、时间同步（前面做过了就不用再做了） yum install ntp ntpdate -u s2c.time.edu.cn 或者 date -s 20180503 3、免密钥登录配置 (远阅读全文

posted @ 2022-02-13 16:49 阿伟宝座阅读(76) 评论(0) 推荐(0)

2022年2月12日

ZooKeeper的介绍、搭建及简单使用

摘要： ZooKeeper的介绍、搭建及简单使用一、ZooKeeper简洁 1、zookeeper简介动物管理员 Apache ZooKeeper致力于开发和维护开源服务器，实现高度可靠的分布式协调。 2、什么是ZooKeeper？ ZooKeeper是一种集中式服务，用于维护配置信息，命名，提供分布式阅读全文

posted @ 2022-02-12 22:36 阿伟宝座阅读(231) 评论(0) 推荐(0)

HDFS的读写流程（用来理解 HDFS Java API ）

摘要： HDFS的读写流程（用来理解 HDFS Java API ） Client(客户端)读取多副本文件过程 RPC—远程过程调用协议 HDFS中的block、packet、chunk 数据存储->读文件读文件流程分析数据存储：写文件写文件流程分析阅读全文

posted @ 2022-02-12 22:34 阿伟宝座阅读(72) 评论(0) 推荐(0)

HDFS--Java--API

摘要： HDFS--Java--API 导入依赖--Maven仓库的官网(mvnrepository.com) 1、打开IDEA创建一个Hadoop项目 2、在Mpom.mxl中添加Hadoop2.7.6的依赖 <dependencies> <!-- https://mvnrepository.com/ar 阅读全文

posted @ 2022-02-12 22:33 阿伟宝座阅读(138) 评论(0) 推荐(0)

2022年2月11日

Hadoop的分布式存储----HDFS原理深入理解

摘要： HDFS原理深入理解 1、HDFS概述（1）数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。（2）是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上阅读全文

posted @ 2022-02-11 22:04 阿伟宝座阅读(439) 评论(0) 推荐(0)

公告