上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 16 下一页
摘要: Hive的介绍 一、大数据体系 (1)同一系统,命令通用 (2)数据库的四大特性:ACID 也就是事物的四大特性: 原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability) 二、Hive的概述 1、Hive是什么? (1)Hive是 阅读全文
posted @ 2022-02-17 23:02 阿伟宝座 阅读(435) 评论(0) 推荐(0)
摘要: MapReduce在Yarn上执行流程、Yarn核心组件功能、模拟ApplicationMaster发送Task、Map端的join MapReduce在Yarn上执行流程 Yarn核心组件功能 模拟ApplicationMaster发送Task 在MR中,MapTask、ReduceTask 都是 阅读全文
posted @ 2022-02-16 22:06 阿伟宝座 阅读(62) 评论(0) 推荐(0)
摘要: MapReduce原理深入理解3 WordCount程序流程图解、combiner(合并)程序示例、3、InputSplit切片详解 1、WordCount示例程序处理流程图解 2、combiner(合并)程序示例 combiner,发生在map阶段,又叫做预聚合; 相当于map端的Reduce,因 阅读全文
posted @ 2022-02-16 21:49 阿伟宝座 阅读(467) 评论(0) 推荐(0)
摘要: MapReduce原理深入理解2 Map、Shuffle、Reduce过程详解 1、MR执行过程-map阶段 map任务处理 1.1 框架使用InputFormat类的子类--FileInputFormat把输入文件(夹)划分为很多InputSplit, 默认,每个HDFS的block对应一个Inp 阅读全文
posted @ 2022-02-16 20:22 阿伟宝座 阅读(636) 评论(0) 推荐(0)
摘要: MapReduce的代码编写 学生数据和总分数据关联(join) 程序代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs 阅读全文
posted @ 2022-02-16 19:12 阿伟宝座 阅读(116) 评论(0) 推荐(0)
摘要: MapReduce的代码编写 统计学生的总分示例 score.txt 1500100001,1000001,98 1500100001,1000002,5 1500100001,1000003,137 1500100001,1000004,29 1500100001,1000005,85 15001 阅读全文
posted @ 2022-02-16 15:07 阿伟宝座 阅读(365) 评论(0) 推荐(0)
摘要: MapReduce的代码编写 统计学生性别示例 student.txt 1500100001,施笑槐,22,女,文科六班 1500100002,吕金鹏,24,男,文科六班 1500100003,单乐蕊,22,女,理科六班 1500100004,葛德曜,24,男,理科三班 1500100005,宣谷芹 阅读全文
posted @ 2022-02-16 11:15 阿伟宝座 阅读(435) 评论(0) 推荐(0)
摘要: MapReduce原理深入理解 1、主要原理 (1)Map任务的数量由切片splite决定;Reduce的数量默认是一个,但是可以手动设置 (2)MapReduce的输入和输出是基于HDFS的文件; 切片splite使用类TestInputFormat将文件中的数据转化为<k1,v1>格式, 此时的 阅读全文
posted @ 2022-02-14 23:00 阿伟宝座 阅读(202) 评论(0) 推荐(0)
摘要: MR的代码编写 1、导入依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-client-core --> <dependency> <groupId>org.apache.hadoop</gro 阅读全文
posted @ 2022-02-14 19:55 阿伟宝座 阅读(313) 评论(0) 推荐(0)
摘要: Hadoop的分布式计算 MapReduce 什么是MapReduce? 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你 3.你把所有玩家告 阅读全文
posted @ 2022-02-13 19:45 阿伟宝座 阅读(158) 评论(0) 推荐(0)
摘要: HDFS-HA搭建(一般用不到) 1、防火墙(搭建之前要关上) service firewalld stop 2、时间同步(前面做过了就不用再做了) yum install ntp ntpdate -u s2c.time.edu.cn 或者 date -s 20180503 3、免密钥登录配置 (远 阅读全文
posted @ 2022-02-13 16:49 阿伟宝座 阅读(58) 评论(0) 推荐(0)
摘要: ZooKeeper的介绍、搭建及简单使用 一、ZooKeeper简洁 1、zookeeper简介 动物管理员 Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调。 2、什么是ZooKeeper? ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式 阅读全文
posted @ 2022-02-12 22:36 阿伟宝座 阅读(203) 评论(0) 推荐(0)
摘要: HDFS的读写流程(用来理解 HDFS Java API ) Client(客户端)读取多副本文件过程 RPC—远程过程调用协议 HDFS中的block、packet、chunk 数据存储->读文件 读文件流程分析 数据存储:写文件 写文件流程分析 阅读全文
posted @ 2022-02-12 22:34 阿伟宝座 阅读(61) 评论(0) 推荐(0)
摘要: HDFS--Java--API 导入依赖--Maven仓库的官网(mvnrepository.com) 1、打开IDEA创建一个Hadoop项目 2、在Mpom.mxl中添加Hadoop2.7.6的依赖 <dependencies> <!-- https://mvnrepository.com/ar 阅读全文
posted @ 2022-02-12 22:33 阿伟宝座 阅读(91) 评论(0) 推荐(0)
摘要: HDFS原理深入理解 1、HDFS概述 (1)数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 (2)是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上 阅读全文
posted @ 2022-02-11 22:04 阿伟宝座 阅读(420) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 16 下一页