1.16记录
今天在网上看了看相关的语言,做下记录。
其实我之前接触过Linux,也用过一些数据库的增删改查。今天就粘贴一下那些大数据学习里肯定离不开的Linux命令:
一、文件与目录操作(最常用)
这些命令是大数据学习中使用频率最高的,几乎每天都会用到。
ls:查看目录内容
示例:ls -l(详细)、ls -a(含隐藏文件)
cd:切换目录
示例:cd /opt、cd ~(回到家目录)
pwd:查看当前路径
mkdir / rmdir:创建 / 删除目录
示例:mkdir -p /data/logs(递归创建)
cp / mv / rm:复制 / 移动 / 删除文件
示例:
cp a.txt b.txt
mv a.txt /tmp/
rm -f a.txt(强制删除)
rm -rf dir/(递归删除目录)
大数据场景:上传数据、移动日志、清理临时文件都会用到。
二、文件内容查看(大数据必备)
在大数据中经常要查看日志、配置文件、数据文件。
cat:查看文件全部内容(适合小文件)
more / less:分页查看(适合大文件)
head / tail:查看头 / 尾
示例:
head -n 10 access.log
tail -f access.log(实时查看日志,非常常用)
wc:统计行数 / 单词数
示例:wc -l access.log(统计行数)
三、文本处理命令(大数据开发高频)
大数据处理中经常要分析日志,这几个命令非常重要。
grep:搜索文本
示例:
grep "ERROR" app.log
grep -n "WARN" app.log(显示行号)
awk:文本分析工具(非常强大)
示例:取日志中的 IP 地址
awk '{print $1}' access.log
sed:文本替换
示例:
sed 's/old/new/g' a.txt
大数据场景:日志分析、数据预处理、快速统计。
四、权限管理(Hadoop/Hive 环境经常遇到)
Linux 权限是大数据初学者最容易踩坑的地方。
chmod:修改权限
示例:chmod 755 start.sh
chown:修改所有者
示例:chown -R hadoop:hadoop /data
大数据场景:HDFS、Hive、Spark 运行时权限不足会报错,需要会改权限。
五、压缩与解压(大数据文件很大)
大数据中经常处理压缩包(.tar .gz .zip)。
tar:打包 / 解包
示例:
tar -zxvf spark.tar.gz(解压)
tar -zcvf data.tar.gz data/(压缩)
unzip:解压 zip
示例:unzip data.zip
六、系统信息查看(调优必备)
后面学习 Spark、Flink 时需要查看系统资源。
top:查看进程和资源占用
df -h:查看磁盘空间(非常重要)
du -sh:查看目录大小
示例:du -sh /data
free -h:查看内存
大数据场景:磁盘满了、内存不够、进程挂了都需要这些命令排查。

浙公网安备 33010602011771号