6日每日总结 HDFS深度实践——Shell命令与Java API应用

HDFS深度实践——Shell命令与Java API应用

前言

HDFS（Hadoop Distributed File System）作为Hadoop体系的核心存储组件，承担着海量数据分布式存储的核心职责，是大数据处理流程中数据存储与管理的关键环节。本次实验聚焦HDFS的核心操作场景，分别从Shell命令实操和Java API编程实现两个维度展开，旨在深入理解HDFS的分布式存储工作原理，掌握其灵活高效的使用方式。

实验环境

操作系统：Linux（Ubuntu 16.04 或 Ubuntu 18.04）
Hadoop版本：3.1.3
JDK版本：1.8
Java开发工具：Eclipse

核心实验内容

一、HDFS Shell命令实践

HDFS Shell命令是操作HDFS最直接的方式，其语法逻辑与Linux本地文件命令相似，但需适配分布式存储的特性，核心操作如下：

1. 文件上传：覆盖与追加策略

向HDFS上传文本文件时，需根据文件已存在的不同场景选择对应操作：
覆盖上传：若HDFS目标路径已存在同名文件，使用 hdfs dfs -put -f 本地文件路径 HDFS目标路径 强制覆盖原有文件；
追加上传：若需将本地文件内容追加到HDFS已有文件末尾，执行 hdfs dfs -appendToFile 本地文件路径 HDFS目标文件路径。

2. 文件下载：自动重命名机制

从HDFS下载指定文件至本地时，若本地路径已存在同名文件，可通过命令实现自动重命名，避免文件覆盖：
```
# 示例：下载HDFS文件并自动重命名（如原文件为test.txt，本地生成test.txt.1）
hdfs dfs -get HDFS文件路径 本地路径/新文件名
# 或通过脚本实现智能重命名，检测本地文件存在性后拼接序号
```
3. 文件信息全方位查看
内容输出：将HDFS中指定文件的内容直接输出到终端，执行 hdfs dfs -cat HDFS文件路径；
元信息查看：查看文件的读写权限、存储大小、创建时间、所属用户、存储路径等核心元信息，使用 hdfs dfs -ls -h HDFS文件路径（-h 以人性化单位显示文件大小）。

4. 目录操作：智能化管理
递归查看目录：输出指定目录下所有文件（含子目录）的详细信息，执行 hdfs dfs -ls -R HDFS目录路径；
目录创建与删除：
- 创建目录：hdfs dfs -mkdir -p HDFS目录路径（-p 自动创建不存在的父目录）；
- 删除目录：删除空目录用 hdfs dfs -rmdir HDFS目录路径，删除非空目录需执行 hdfs dfs -rm -r -i HDFS目录路径（-i 触发交互确认，避免误删）；

文件创建自动建目录：向不存在的HDFS目录创建文件时，通过组合命令先检测目录存在性，不存在则自动创建，再写入文件：

# 示例：创建文件时自动建父目录
HDFS_PATH="/user/hadoop/newdir/test.txt"
hdfs dfs -test -d $(dirname $HDFS_PATH) || hdfs dfs -mkdir -p $(dirname $HDFS_PATH)
echo "test content" | hdfs dfs -put - $HDFS_PATH

5. 文件内容追加与移动

内容追加：支持向HDFS文件的开头或结尾追加内容，结尾追加可直接使用 appendToFile 命令，开头追加需先下载文件、本地拼接内容后重新上传覆盖；

文件移动：将文件从HDFS源路径移动到目标路径，执行 hdfs dfs -mv HDFS源路径 HDFS目标路径，支持跨目录、跨数据节点移动，底层仅修改元数据，无需移动实际数据块。

二、Java API编程实现

通过Java API操作HDFS，可突破Shell命令的交互限制，实现自定义、可复用的分布式文件操作逻辑，核心实现场景如下：

1. 自定义FSDataInputStream类：按行读取文件

创建 MyFSDataInputStream 类，继承 org.apache.hadoop.fs.FSDataInputStream，重写/实现 readLine() 方法，实现按行读取HDFS文件内容，文件读取至末尾时返回 null，核心代码示例：

import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.Configuration;
import java.io.BufferedReader;
import java.io.InputStreamReader;
public class MyFSDataInputStream extends FSDataInputStream {
private BufferedReader reader;
public MyFSDataInputStream(Path path, Configuration conf) throws Exception {
super(FileSystem.get(conf).open(path));
this.reader = new BufferedReader(new InputStreamReader(this));
}
// 实现按行读取方法
public String readLine() throws Exception {
return reader.readLine();
}
// 测试方法
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Path path = new Path("/user/hadoop/test.txt");
MyFSDataInputStream inputStream = new MyFSDataInputStream(path, conf);
String line;
while ((line = inputStream.readLine()) != null) {
System.out.println(line);
}
inputStream.close();
}
}

2. 基于URL读取HDFS文件

利用 java.net.URL 结合Hadoop提供的 FsURLStreamHandlerFactory，实现通过URL直接读取HDFS文件内容并输出到终端，核心步骤：

注册HDFS URL处理器：URL.setURLStreamHandlerFactory(new FsURLStreamHandlerFactory());
构建HDFS文件URL：URL url = new URL("hdfs://localhost:9000/user/hadoop/test.txt");
打开输入流并读取内容：

import java.io.InputStream;
import java.net.URL;
import org.apache.hadoop.fs.FsURLStreamHandlerFactory;
public class HdfsUrlReader {
static {
// 注册HDFS URL处理器
URL.setURLStreamHandlerFactory(new FsURLStreamHandlerFactory());
}
public static void main(String[] args) throws Exception {
// 构建HDFS文件URL（需匹配集群namenode地址和端口）
URL url = new URL("hdfs://localhost:9000/user/hadoop/test.txt");
try (InputStream is = url.openStream()) {
byte[] buffer = new byte[1024];
int len;
while ((len = is.read(buffer)) != -1) {
System.out.print(new String(buffer, 0, len));
}
}
}
}

实验心得

1. Shell命令：易用性与分布式特性结合

HDFS Shell命令在语法上与Linux本地文件命令高度相似，降低了上手门槛，但需重点关注分布式存储的特性差异：

HDFS无“当前目录”概念，所有路径需使用绝对路径；
文件操作最终映射到分布式数据块的管理，如删除文件仅删除元数据，实际数据块由HDFS后台回收；
部分命令（如appendToFile）受HDFS写入机制限制，仅支持追加到文件末尾，需提前规划文件写入策略。

2. Java API：底层交互与灵活扩展

Java API编程让我深入理解了HDFS客户端与集群的底层交互机制：
需通过Configuration类加载Hadoop配置文件，确保客户端与集群配置一致；
操作HDFS前需获取FileSystem实例，该实例是与HDFS集群交互的核心入口；
编程过程中需注意资源释放（如输入流、FileSystem实例），避免连接泄漏导致集群资源浪费；
需在Eclipse中正确引入Hadoop相关依赖包（如hadoop-common、hadoop-hdfs），确保程序编译和运行环境正常。

3. 核心收获

通过本次实验，不仅掌握了HDFS的基础操作技能，更理解了分布式文件系统“分块存储、副本冗余、元数据管理”的核心设计思想。Shell命令适合快速的手动运维操作，而Java API则适用于集成到业务系统中，实现自动化、定制化的大数据存储管理需求，二者结合可充分发挥HDFS在海量数据存储场景中的优势。

posted @ 2026-01-06 02:04 Moonbeamsc 阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

MoonbeamsC

见微知著，历久弥新。

2025/11/6日每日总结 HDFS深度实践——Shell命令与Java API应用

HDFS深度实践——Shell命令与Java API应用

前言

实验环境

核心实验内容

一、HDFS Shell命令实践

1. 文件上传：覆盖与追加策略

2. 文件下载：自动重命名机制

3. 文件信息全方位查看

4. 目录操作：智能化管理

5. 文件内容追加与移动

二、Java API编程实现

1. 自定义FSDataInputStream类：按行读取文件

2. 基于URL读取HDFS文件

实验心得

1. Shell命令：易用性与分布式特性结合

2. Java API：底层交互与灵活扩展

3. 核心收获

公告

MoonbeamsC

见微知著，历久弥新。

2025/11/6日 每日总结 HDFS深度实践——Shell命令与Java API应用

HDFS深度实践——Shell命令与Java API应用

前言

实验环境

核心实验内容

一、HDFS Shell命令实践

1. 文件上传：覆盖与追加策略

2. 文件下载：自动重命名机制

3. 文件信息全方位查看

4. 目录操作：智能化管理

5. 文件内容追加与移动

二、Java API编程实现

1. 自定义FSDataInputStream类：按行读取文件

2. 基于URL读取HDFS文件

实验心得

1. Shell命令：易用性与分布式特性结合

2. Java API：底层交互与灵活扩展

3. 核心收获

公告

2025/11/6日每日总结 HDFS深度实践——Shell命令与Java API应用