上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 65 下一页
摘要: 1.概述 1.好处 & 坏处 优点:减少磁盘IO、减少磁盘存储空间 缺点:增加CPU开销 2.压缩的原则 运算密集型的Job,少用压缩 IO密集型的Job,多用压缩 2.MR 支持的压缩编码 1.压缩算法对比介绍 压缩格式 Hadoop自带? 算法 文件扩展名 是否可切片 换成压缩格式后,原来的程序 阅读全文
posted @ 2023-12-16 18:48 SpringCore 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 1.InputFormat数据输入 1.数据切片与MapTask并行度决定机制 一个Job的Map阶段并行度由客户端在提交Job时的切片数决定 每一个Split切片分配一个MapTask并行实例处理 默认情况下,切片大小 = BlockSize 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片 阅读全文
posted @ 2023-12-14 11:45 SpringCore 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 1.Hadoop数据类型 Java类型 Hadoop Writable类型 Boolean BooleanWritable Byte ByteWritable Int IntWritable Float FloatWritable Long LongWritable Double DoubleWri 阅读全文
posted @ 2023-12-13 19:04 SpringCore 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 用户编写的程序分为三个部分:Mapper、Reducer和Driver 1.Mapper阶段 用户自定义的Mapper要继承自己的父类 Mapper的输入数据是KV对的形式(KV的类型可自定义) Mapper中的业务逻辑写在map()方法中 Mapper的输出数据是KV对的形式(KV的类型可自定义) 阅读全文
posted @ 2023-12-13 10:26 SpringCore 阅读(6) 评论(0) 推荐(0) 编辑
摘要: NameNode被格式化之后,将在NameNode目录下产生一些文件 1.Fsimage文件 Fsimage文件是HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件inode的序列化信息 查看Fsimage文件 hdfs oiv -p 文件类型 -i 镜像文件 -o 阅读全文
posted @ 2023-12-12 14:35 SpringCore 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 从低到高 1.默认配置 默认文件 文件存放在Hadoop的jar包中的位置 core-default.xml hadoop-common-3.3.6.jar/core-default.xml hdfs-default.xml hadoop-hdfs-3.3.6.jar/hdfs-default.xm 阅读全文
posted @ 2023-12-11 13:12 SpringCore 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 1.配置Hadoop的Windows客户端 Hadoop 配置Windows 客户端 2.新建Maven项目[略] 3.添加依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dependen 阅读全文
posted @ 2023-12-10 16:10 SpringCore 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 1.根据Hadoop版本下载Windows依赖,并放置到非中文目录下 https://github.com/cdarlint/winutils 2.配置环境变量 HADOOP_HOME -> 放置的目录地址 PATH -> 追加%HADOOP_HOME%\bin 3.测试环境 双击winutils. 阅读全文
posted @ 2023-12-10 15:07 SpringCore 阅读(44) 评论(0) 推荐(0) 编辑
摘要: HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来配置,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M. 建议配置为物理机硬盘每秒的读取速度,如机械硬盘则建议为128M,SSD则配置为256M。 HDFS的块设置太小 阅读全文
posted @ 2023-12-10 10:56 SpringCore 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 1.安装[可选,如已安装则跳过] apt install ntp 2.启动NTP服务 systemctl start ntpd systemctl enable ntpd 3.查看NTP服务运行状态 systemctl status ntpd 4.修改配置文件 vi /etc/ntpsec/ntp. 阅读全文
posted @ 2023-12-09 17:49 SpringCore 阅读(2878) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 65 下一页