hadoop-HDFS学习

一、HDFS的shell操作：

1.语法：`hadoop fs 具体命令`或者`hdfs dfs 具体命令`

2.上传：

（1）剪切`hadoop fs -moveFromLocal 本地文件路径 HDFS文件路径`

（2）复制`hadoop fs -copyFromLocal 本地文件路径 HDFS文件路径`或者`hadoop fs -put 本地文件路径 HDFS文件路径`

（3）追加到文件末尾`hadoop fs -appendToFile 本地文件路径 HDFS文件路径`

3.下载：拷贝到本地`hadoop fs -copyToLocal HDFS文件路径本地文件路径`或者`hadoop fs -get HDFS文件路径本地文件路径`

4.创建文件夹：`hadoop fs -mkdir HDFS文件名`

5.拷贝文件：`hadoop fs -cp HDFS原文件路径 HDFS目的文件路径`

6.剪切文件：`hadoop fs -mv HDFS原文件路径 HDFS目的文件路径`

7.显示文件末尾1kb数据：`hadoop fs -tail HDFS文件路径`

8.删除文件：`hadoop fs -rm HDFS文件路径`

9.递归删除文件：`hadoop fs -rm -r HDFS原文件路径 HDFS目的文件路径`

10.显示文件夹数据大小：`hadoop fs -du -s -h HDFS文件路径`

11.显示文件夹下各个文件的数据大小：`hadoop fs -du -h HDFS文件路径`

12.设置HDFS中文件的副本数量：`hadoop fs -setrep 数量 HDFS文件路径`

二、读写数据

1.oiv查看fsimage文件，`hdfs oiv -p 文件类型 -i 编辑日志 -o 转换后文件输出路径`

2.oev查看Edits文件，`hdfs oev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径`

三、面试题

1.HDFS文件块大小：在企业中一般128m（中小公司），256m（大公司）

2.HDFS的shell操作（开发重点）

3.HDFS的读写流程（面试重点）

四、代码样例：

package com.lzp.hdfs;

/*
 * 客户端代码常用套路
 * 1.获取一个客户端对象
 * 2.执行相关的操作命令
 * 3.关闭资源
 * HDFS zookeeper
 */

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;
import java.lang.reflect.Array;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;

public class HdfsClient {

    private FileSystem fs;

    @Before
    public void init() throws URISyntaxException, IOException, InterruptedException {
        //连接集群nn地址
        URI uri=new URI("hdfs://hadoop102:8020");
        //创建一个配置文件
        Configuration configuration = new Configuration();
        //用户
        String user="lzp";
        //1.获取到了客户端对象
        fs = FileSystem.get(uri, configuration,user);
    }

    @After
    public void close() throws IOException {
        //3.关闭资源
        fs.close();
    }

    @Test
    public void testmkdir() throws URISyntaxException, IOException, InterruptedException {
        //2.创建一个文件夹
        fs.mkdirs(new Path("/xiyou/huaguoshan1" ));
    }
//    上传
    @Test
    public void testPut() throws IOException {
//        参数解读：参数一：表示删除原数据；参数二：是否允许覆盖；参数三：原数据路径；参数四：目的地路径
        fs.copyFromLocalFile(false,false,new Path("D:\\sunwukong.txt"),new Path("/xiyou/huaguoshan"));
    }
//    下载
    @Test
    public void testGet() throws IOException {
//        参数解读：参数一：表示删除原数据；参数二：原文件路径HDFS；参数三：目标地址路径Win；参数四；
        fs.copyToLocalFile(false,new Path("/xiyou/huaguoshan"),new Path("D:\\sunwukong.txt"),false);
    }
//    删除
    @Test
    public void testRm() throws IOException {
//        参数解读：参数一：要删除的路径；参数二：是否递归删除
//        删除文件
        fs.delete(new Path("/xiyou/huaguoshan/sunwukong.txt"),false);
//        删除空目录
        fs.delete(new Path("/xiyou/huaguoshan"),false);
//        删除非目录
        fs.delete(new Path("/sanguo"),true);
    }
//    文件的更名和移动
    @Test
    public void testmv() throws IOException {
//        参数解读：参数一：原文件路径；参数二：目标文件路径
//        对文件名称的修改
        fs.rename(new Path("/input/README.txt"),new Path("/input/ss.txt"));
//        文件的移动和更名
        fs.rename(new Path("/input/ss.txt"),new Path("/ss.cjk.txt"));
    }
//    获取文件信息
    @Test
    public void fileDetail() throws IOException {
//        获取所有文件信息
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
//        遍历文件
        while (listFiles.hasNext()) {
            LocatedFileStatus fileStatus = listFiles.next();
            System.out.println("========="+fileStatus.getPath()+"==========");
            System.out.println(fileStatus.getPermission());
            System.out.println(fileStatus.getOwner());
            System.out.println(fileStatus.getGroup());
            System.out.println(fileStatus.getLen());
            System.out.println(fileStatus.getModificationTime());
            System.out.println(fileStatus.getReplication());
            System.out.println(fileStatus.getBlockLocations());
            System.out.println(fileStatus.getBlockSize());
            System.out.println(fileStatus.getPath().getName());

//            获取块信息
            BlockLocation[] blockLocations = fileStatus.getBlockLocations();
            System.out.println(Arrays.toString(blockLocations));
        }
    }
//    判断是文件夹还是文件
    @Test
    public void testFile() throws IOException {
        FileStatus[] listStatus = fs.listStatus(new Path("/"));
        for (FileStatus status : listStatus) {
            if (status.isFile()) {
                System.out.println("文件："+status.getPath().getName());
            }else{
                System.out.println("目录："+status.getPath().getName());
            }
        }
    }

}

五、集群运行

1.打包到集群上然后往集群上上传输入文件

2.使用`hadoop jar 打包的jar包编译的文件全称集群上的输入文件集群上的输出文件`，如`hadoop jar wc.jar com.lzp.mapreduce.wordcount.WordCountDriver /input /output`

posted on 2022-08-23 16:52 L先森请坐下阅读(89) 评论(0) 收藏举报

刷新页面返回顶部

L先森请坐下

hadoop-HDFS学习

一、HDFS的shell操作：

1.语法：`hadoop fs 具体命令`或者`hdfs dfs 具体命令`

2.上传：

（1）剪切`hadoop fs -moveFromLocal 本地文件路径 HDFS文件路径`

（2）复制`hadoop fs -copyFromLocal 本地文件路径 HDFS文件路径`或者`hadoop fs -put 本地文件路径 HDFS文件路径`

（3）追加到文件末尾`hadoop fs -appendToFile 本地文件路径 HDFS文件路径`

3.下载：拷贝到本地`hadoop fs -copyToLocal HDFS文件路径本地文件路径`或者`hadoop fs -get HDFS文件路径本地文件路径`

4.创建文件夹：`hadoop fs -mkdir HDFS文件名`

5.拷贝文件：`hadoop fs -cp HDFS原文件路径 HDFS目的文件路径`

6.剪切文件：`hadoop fs -mv HDFS原文件路径 HDFS目的文件路径`

7.显示文件末尾1kb数据：`hadoop fs -tail HDFS文件路径`

8.删除文件：`hadoop fs -rm HDFS文件路径`

9.递归删除文件：`hadoop fs -rm -r HDFS原文件路径 HDFS目的文件路径`

10.显示文件夹数据大小：`hadoop fs -du -s -h HDFS文件路径`

11.显示文件夹下各个文件的数据大小：`hadoop fs -du -h HDFS文件路径`

12.设置HDFS中文件的副本数量：`hadoop fs -setrep 数量 HDFS文件路径`

二、读写数据

1.oiv查看fsimage文件，`hdfs oiv -p 文件类型 -i 编辑日志 -o 转换后文件输出路径`

2.oev查看Edits文件，`hdfs oev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径`

三、面试题

1.HDFS文件块大小：在企业中一般128m（中小公司），256m（大公司）

2.HDFS的shell操作（开发重点）

3.HDFS的读写流程（面试重点）

四、代码样例：

五、集群运行

1.打包到集群上然后往集群上上传输入文件

2.使用`hadoop jar 打包的jar包编译的文件全称集群上的输入文件集群上的输出文件`，如`hadoop jar wc.jar com.lzp.mapreduce.wordcount.WordCountDriver /input /output`

导航

公告

L先森请坐下

hadoop-HDFS学习

一、HDFS的shell操作：

1.语法：hadoop fs 具体命令或者hdfs dfs 具体命令

2.上传：

（1）剪切hadoop fs -moveFromLocal 本地文件路径 HDFS文件路径

（2）复制hadoop fs -copyFromLocal 本地文件路径 HDFS文件路径或者hadoop fs -put 本地文件路径 HDFS文件路径

（3）追加到文件末尾hadoop fs -appendToFile 本地文件路径 HDFS文件路径

3.下载：拷贝到本地hadoop fs -copyToLocal HDFS文件路径 本地文件路径或者hadoop fs -get HDFS文件路径 本地文件路径

4.创建文件夹：hadoop fs -mkdir HDFS文件名

5.拷贝文件：hadoop fs -cp HDFS原文件路径 HDFS目的文件路径

6.剪切文件：hadoop fs -mv HDFS原文件路径 HDFS目的文件路径

7.显示文件末尾1kb数据：hadoop fs -tail HDFS文件路径

8.删除文件：hadoop fs -rm HDFS文件路径

9.递归删除文件：hadoop fs -rm -r HDFS原文件路径 HDFS目的文件路径

10.显示文件夹数据大小：hadoop fs -du -s -h HDFS文件路径

11.显示文件夹下各个文件的数据大小：hadoop fs -du -h HDFS文件路径

12.设置HDFS中文件的副本数量：hadoop fs -setrep 数量 HDFS文件路径

二、读写数据

1.oiv查看fsimage文件，hdfs oiv -p 文件类型 -i 编辑日志 -o 转换后文件输出路径

2.oev查看Edits文件，hdfs oev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径

三、面试题

1.HDFS文件块大小：在企业中一般128m（中小公司），256m（大公司）

2.HDFS的shell操作（开发重点）

3.HDFS的读写流程（面试重点）

四、代码样例：

五、集群运行

1.打包到集群上然后往集群上上传输入文件

2.使用hadoop jar 打包的jar包 编译的文件全称 集群上的输入文件 集群上的输出文件，如hadoop jar wc.jar com.lzp.mapreduce.wordcount.WordCountDriver /input /output

导航

公告

1.语法：`hadoop fs 具体命令`或者`hdfs dfs 具体命令`

（1）剪切`hadoop fs -moveFromLocal 本地文件路径 HDFS文件路径`

（2）复制`hadoop fs -copyFromLocal 本地文件路径 HDFS文件路径`或者`hadoop fs -put 本地文件路径 HDFS文件路径`

（3）追加到文件末尾`hadoop fs -appendToFile 本地文件路径 HDFS文件路径`

3.下载：拷贝到本地`hadoop fs -copyToLocal HDFS文件路径本地文件路径`或者`hadoop fs -get HDFS文件路径本地文件路径`

4.创建文件夹：`hadoop fs -mkdir HDFS文件名`

5.拷贝文件：`hadoop fs -cp HDFS原文件路径 HDFS目的文件路径`

6.剪切文件：`hadoop fs -mv HDFS原文件路径 HDFS目的文件路径`

7.显示文件末尾1kb数据：`hadoop fs -tail HDFS文件路径`

8.删除文件：`hadoop fs -rm HDFS文件路径`

9.递归删除文件：`hadoop fs -rm -r HDFS原文件路径 HDFS目的文件路径`

10.显示文件夹数据大小：`hadoop fs -du -s -h HDFS文件路径`

11.显示文件夹下各个文件的数据大小：`hadoop fs -du -h HDFS文件路径`

12.设置HDFS中文件的副本数量：`hadoop fs -setrep 数量 HDFS文件路径`

1.oiv查看fsimage文件，`hdfs oiv -p 文件类型 -i 编辑日志 -o 转换后文件输出路径`

2.oev查看Edits文件，`hdfs oev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径`

2.使用`hadoop jar 打包的jar包编译的文件全称集群上的输入文件集群上的输出文件`，如`hadoop jar wc.jar com.lzp.mapreduce.wordcount.WordCountDriver /input /output`