5.9日报
完成大数据应用实验
一、实验目的
1.熟练掌握常用的hadoop shell命令
二、实验过程
1.打开终端模拟器,切换到/apps/hadoop/sbin目录下,启动Hadoop
cd /apps/hadoop/sbin
./start-all.sh
除了直接执行start-all.sh外,还可以分步启动start-dfs.sh和start-yarn.sh。
2.执行jps,检查一下Hadoop相关进程是否启动
jps
3.在/目录下创建一个test1文件夹
hadoop fs -mkdir /test1
4.在Hadoop中的test1文件夹中创建一个file.txt文件
hadoop fs -touchz /test1/file.
5.查看根目录下所有文件
hadoop fs -ls /
6.还可以使用ls -R的方式递归查看根下所有文件
hadoop fs -ls -R /
7.将Hadoop根下test1目录中的file.txt文件,移动到根下并重命名为file2.txt
hadoop fs -mv /test1/file.txt
Hadoop中的mv用法同Linux中的一样,都可以起到移动文件和重命名的作用。
8.将Hadoop根下的file2.txt文件复制到test1目录下
hadoop fs -cp /file2.txt /test
9.在Linux本地/data目录下,创建一个data.txt文件,并向其中写入hello hadoop!
cd /data
touch data.txt
echo hello hadoop! >> data.txt
10.将Linux本地/data目录下的data.txt文件,上传到HDFS中的/test1目录下
hadoop fs -put /data/data.txt
11.查看Hadoop中/test1目录下的data.txt文件
hadoop fs -cat /test1/data.txt
12.除此之外还可以使用tail方法
hadoop fs -tail /test1/data.txt
13.查看Hadoop中/test1目录下的data.txt文件大小
hadoop fs -du -s /test1/data.txt
-du 后面可以不加-s,直接写目录表示查看该目录下所有文件大小
14.text方法可以将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream。
hadoop fs -text /test1/data.txt
15.stat方法可以返回指定路径的统计信息,有多个参数可选,当使用-stat选项但不指定format时候,只打印文件创建日期,相当于%y
hadoop fs -stat /test1/data.txt
16.将Hadoop中/test1目录下的data.txt文件,下载到Linux本地/apps目录中
hadoop fs -get /test1/data.txt /apps
17.查看一下/apps目录下是否存在data.txt文件
ls /apps
18.使用chown方法,改变Hadoop中/test1目录中的data.txt文件拥有者为root,使用-R将使改变在目录结构下递归进行。
hadoop fs -chown root /test1/data.txt
19.使用chmod方法,赋予Hadoop中/test1目录中的data.txt文件777权限
hadoop fs -chmod 777 /test1/data.txt
20.删除Hadoop根下的file2.txt文件
hadoop fs -rm /file2.txt
21.删除Hadoop根下的test1目录
hadoop fs -rm -r /test1
22.当在Hadoop中设置了回收站功能时,删除的文件会保留在回收站中,可以使用expunge方法清空回收站。
hadoop fs -expunge
在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。
23.使用Shell命令执行Hadoop自带的WordCount
首先切换到/data目录下,使用vim编辑一个data.txt文件,内容为:hello world hello hadoop hello ipieuvre
cd /data
vim data.txt
在HDFS的根下创建in目录,并将/data下的data.txt文件上传到HDFS中的in目录
hadoop fs -put /data/data.txt /in
执行hadoop jar命令,在hadoop的/apps/hadoop/share/hadoop/mapreduce路径下存在hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar包,我们执行其中的worldcount类,数据来源为HDFS的/in目录,数据输出到HDFS的/out目录
hadoop jar /apps/hadoop/share/hadoop/mapred
查看HDFS中的/out目录
hadoop fs -ls /out
hadoop fs -cat /out/*
24.进入Hadoop安全模式
hdfs dfsadmin -safemode enter
25.退出Hadoop安全模式
hdfs dfsadmin -safemode leave
26.切换到/apps/hadoop/sbin目录下,关闭Hadoop
cd /apps/hadoop/sbin
./stop-all.sh
三、实验心得
通过这次Hadoop实验,我更深入地理解了Hadoop的文件系统操作和集群管理。实验过程中,我学习了如何使用Hadoop Shell命令来管理文件和文件夹,包括创建、移动、复制、查看、删除等操作,以及如何改变文件权限和拥有者。这些操作与Linux命令行操作相似,但又有其特定于HDFS的特点。我还了解了Hadoop的安全模式,这是HDFS在启动或维护时的一种保护机制,以确保数据的一致性和完整性。
此外,通过使用Hadoop自带的WordCount示例,我体验了如何提交MapReduce作业,并理解了MapReduce编程模型的基本工作原理。这个过程让我认识到了Hadoop在处理大规模数据时的强大能力。
最后,通过启动和停止Hadoop集群,我对Hadoop的运行机制有了更直观的认识。实验中遇到的问题,如安全模式的等待,也让我意识到了在实际操作中可能遇到的挑战和需要考虑的因素。
总的来说,这次实验不仅加深了我对Hadoop文件系统和MapReduce编程模型的理解,也提高了我使用Hadoop进行数据处理的实际操作能力。

浙公网安备 33010602011771号