linux命令之sed, awk, grep, cut篇
用下来感觉这4个命令比较常用,功能也比较强大,等我有时间了要好好整理一下。 首先介绍一下cut,之前有文章已经讲过它的用法了,这次连带cut的死对头paste,一起拎出来讲讲。 第一篇 cut 常用参数: -c 根据字符,用法:cut -cnum1-num2 filename 截取num1~num2之间的字符,字符从1开始记。 -f 根据域,默认为tab分隔 -d 定义域分隔符 范例: shell> cat example test2 this is test1 shell> cut -c1-6 example ## print 开头算起前 6 个字元 test2 this i -c m-n 表示显示每一行的第m个字元到第n个字元。例如: ---------file----------- liubi 23 14000 ---------file----------- # cut -c 1-5,10-14 file liubi 14000 -f m-n 表示显示第m栏到第n栏(使用tab分隔)。例如: ---------file----------- liubi 23 14000 ---------file----------- # cut -f 1,3 file liubi 14000 -c 和 -f 参数可以跟以下子参数: m 第m个字符或字段 m- 从第m个字符或字段到文件结束 m-n 从第m个到第n个字符或字段 -n 从第1个到第n个字符或字段 我们经常会遇到需要取出分字段的文件的某些特定字段,例如 /etc/password就是通过":"分隔各个字段的。可以通过cut命令来实现。例如,我们希望将系统账号名保存到 特定的文件,就可以: cut -d: -f 1 /etc/passwd > /tmp/users -d用来定义分隔符,默认为tab键,-f表示需要取得哪个字段 如: 使用|分隔 cut -d'|' -f2 1.test>2.test 使用:分隔 cut -d':' -f2 1.test>2.test 这里使用单引号或双引号皆可。 对于特殊字符用\来转义(以“-”为分隔符切割后,要第一个字段): BGIOSGA005099-TA BGIOSGA005310-TA cut -d\- -f 1 file >out 或者:cut "\-" -f 1 file >out cut的死对头:paste paste file1 file2 >file3 把文件1与文件2按列合并(有没有发现跟cut正好相反呢?) $ less 111 abc ddd eee $ less 222 123 444 555 $ paste 111 222 >333 $ less 333 abc ddd eee 123 444 555 用-d参数可以自定义分隔符 $ paste -d: 111 222 >444 $ less 444 abc ddd eee:123 444 555 paste命令还有一个很有用的选项"-"。意即对每一个"-",从标准输入中读一次数据。-d参数来定义分隔符。以一个3列格式显示目录列表。方法如下: $ ls |paste -d: - - - #注意,"-"和"-"之间有空格 block_info_down_1000:block_info_down_3000:sv_test block_info_up1000:block_info_up3000:module_indel_sv module_test:old:regulation_region_down.pl sample.Q20.down1000:sample.Q20.down3000:sample.Q20.up1000 sample.Q20.up3000:sample_to_9311.snp.Q20.filter.sort:sample_to_test 第二篇 awk awk 用法:awk ' pattern {action} ' 变量名 含义 ARGC 命令行变元个数 ARGV 命令行变元数组 FILENAME 当前输入文件名 FNR 当前文件中的记录号 FS 输入域分隔符,默认为一个空格 RS 输入记录分隔符 NF 当前记录里域个数 NR 到目前为止记录数 OFS 输出域分隔符 ORS 输出记录分隔符 用法介绍: 1,模式匹配 awk '/zqy/' fileA #寻找出fileA中含有zqy的行 等同于awk '$0~/zqy/' fileA awk '$1~/88/' fileA #找出第一个域里面包含88的行 awk '$1~/88/{print $2}' fileA #找出第一个域里面包含88的行后,只打印该行的第二个域 2,对不同的域进行操作 awk '$2 >25 && $2<=55' fileA #找出第二个域里面满足条件的行,可以加上{print $n}来打印任意域 ############### fileB ################# 884 46 1 8 5 944 734 41 0 10 2 787 647 29 1 8 1 686 536 26 1 9 0 572 ############### fileB ################# $ less fileB 884 46 1 8 5 944 734 41 0 10 2 787 647 29 1 8 1 686 536 26 1 9 0 572 $awk '{print NR,NF,$NF}' fileB # NR:文件当前记录号(在这里可以理解为行数); NF:总的域的个数(可以理解为列数); $NF:想一想是什么东西吧?再不知道就撞墙去吧。 1 6 944 2 6 787 3 6 686 4 6 572 3,通过-F参数来改变域分隔符,FS设置输入分隔符,OFS设置输出分隔符,awk所有操作都支持管道。如: df | awk '$4>1000000 ' 通过管道符获得输入,如:显示第4个域满足条件的行。 awk -F "|" '{print $1}' file 按照新的分隔符“|”进行操作。 awk 'BEGIN { FS="[: \t|]"}{print $1,$2,$3}' file 通过设置输入分隔符(FS="[: \t|]")修改输入分隔符。BEGIN 表示在处理任意行之前进行的操作。 awk 'BEGIN { OFS="%"} {print $1,$2,$3}' file 通过设置输出分隔符(OFS="%")修改输出格式。 Sep="|" awk -F $Sep '{print $1}' file 按照环境变量Sep的值做为分隔符。 awk -F '[ :\t|]' '{print $1}' file 按照正则表达式的值做为分隔符,这里代表空格、:、TAB、|同时做为分隔符。 awk -F '[][]' '{print $1}' file 按照正则表达式的值做为分隔符,这里代表[、] 4、 awk -f awkfile file 通过文件awkfile的内容依次进行控制。 cat awkfile /101/{print "\047 Hello! \047"} --遇到匹配行以后打印 ' Hello! '.\047代表单引号。 {print $1,$2} --因为没有模式控制,打印每一行的前两个域。 5、 awk 'BEGIN { max=100 ;print "max=" max} {max=($1 >max ?$1:max); print $1,"Now max is "max}' file 取得文件第一个域的最大值。 awk '{print ($1>4 ? "high "$1: "low "$1)}' file 6、 awk '{$1 == 'Chi' {$3 = 'China'; print}' file 找到匹配行后先将第3个域替换后再显示该行(记录)。 awk '{$7 %= 3; print $7}' file 将第7域被3除,并将余数赋给第7域再打印。 7、 awk '/tom/ {wage=$2+$3; printf wage}' file 找到匹配行后为变量wage赋值并打印该变量。 8、 awk '/tom/ {count++;} END {print "tom was found "count" times"}' file #END表示在所有输入行处理完后进行处理。 9、awk 'gsub(/\$/,"");gsub(/,/,""); cost+=$4;END {print "The total is $" cost>"filename"}' file gsub函数用空串替换$和,再将结果输出到filename中。 1 2 3 $1,200.00 1 2 3 $2,300.00 1 2 3 $4,000.00 awk '{gsub(/\$/,"");gsub(/,/,""); if ($4>1000&&$4<2000) c1+=$4; else if ($4>2000&&$4<3000) c2+=$4; else if ($4>3000&&$4<4000) c3+=$4; else c4+=$4; } END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"' file 通过if和else if完成条件语句 awk '{gsub(/\$/,"");gsub(/,/,""); if ($4>3000&&$4<4000) exit; else c4+=$4; } END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"' file 通过exit在某条件时退出,但是仍执行END操作。 awk '{gsub(/\$/,"");gsub(/,/,""); if ($4>3000) next; else c4+=$4; } END {printf "c4=[%d]\n",c4}"' file 通过next在某条件时跳过该行,对下一行执行操作。 10、awk '{ print FILENAME,$0 }' file1 file2 file3>fileall 把file1、file2、file3的文件内容全部写到fileall中,并前置文件名。 11、awk ' $1!=previous { close(previous); previous=$1 } {print substr($0,index($0," ") +1)>$1}' fileall 把合并后的文件重新分拆为3个文件。并与原文件一致。 12、awk 'BEGIN {"date"|getline d; print d}' 通过管道把date的执行结果送给getline,并赋给变量d,然后打印。 13、awk 'BEGIN {system("echo \"Input your name:\\c\""); getline d;print "\nYour name is",d,"\b!\n"}' 通过getline命令交互输入name,并显示出来。 awk 'BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}' 打印/etc/passwd文件中用户名包含050x_的用户名。 14、awk '{ i=1;while(i<NF) {print NF,$i;i++}}' file 通过while语句实现循环。 awk '{ for(i=1;i<NF;i++) {print NF,$i}}' file 通过for语句实现循环。 type file|awk -F "/" ' { for(i=1;i<NF;i++) { if(i==NF-1) { printf "%s",$i } else { printf "%s/",$i } }}' 显示一个文件的全路径。 用for和if显示日期 awk 'BEGIN { for(j=1;j<=12;j++) { flag=0; printf "\n%d月份\n",j; for(i=1;i<=31;i++) { if (j==2&&i>28) flag=1; if ((j==4||j==6||j==9||j==11)&&i>30) flag=1; if (flag==0) {printf "%02d%02d ",j,i} } } }' 15、在awk中调用系统变量必须用单引号,如果是双引号,则表示字符串 Flag=abcd awk '{print '$Flag'}' 结果为abcd awk '{print "$Flag"}' 结果为$Flag grep正则表达式元字符集: ^ 锚定行的开始 如:'^grep'匹配所有以grep开头的行。 $ 锚定行的结束 如:'grep$'匹配所有以grep结尾的行。 . 匹配一个非换行符的字符 如:'gr.p'匹配gr后接一个任意字符,然后是p。 * 匹配零个或多个先前字符 如:'*grep'匹配所有一个或多个空格后紧跟grep的行。 .*一起用代表任意字符。 [] 匹配一个指定范围内的字符,如'[Gg]rep'匹配Grep和grep。 [^] 匹配一个不在指定范围内的字符,如:'[^A-FH-Z]rep'匹配不包含A-R和T-Z的一个字母开头,紧跟rep的行。 \(..\) 标记匹配字符,如'\(love\)',love被标记为1。 \< 锚定单词的开始,如:'\<grep'匹配包含以grep开头的单词的行。 \> 锚定单词的结束,如'grep\>'匹配包含以grep结尾的单词的行。 x\{m\} 重复字符x,m次,如:'0\{5\}'匹配包含5个o的行。 x\{m,\} 重复字符x,至少m次,如:'o\{5,\}'匹配至少有5个o的行。 x\{m,n\}重复字符x,至少m次,不多于n次,如:'o\{5,10\}'匹配5--10个o的行。 \w 匹配文字和数字字符,也就是[A-Za-z0-9],如:'G\w*p'匹配以G后跟零个或多个文字或数字字符,然后是p。 \b 单词锁定符,如: '\bgrep\b'只匹配grep。 常用的 grep 选项有: -c 只输出匹配行的个数。 -i 不区分大小写(只适用于单字符)。 -h 查询多文件时不显示文件名。 -l 查询多文件时只输出包含匹配字符的文件名。 -n 显示匹配行及行号。 -s 不显示不存在或无匹配文本的错误信息。 -v 显示不包含匹配文本的所有行。 -V 显示软件版本信息 使用grep匹配时最好用双引号引起来,防止被系统误认为参数或者特殊命令,也可以匹配多个单词。 关于匹配的实例: grep -c "48" test.txt 统计所有以“48”字符开头的行有多少 grep -i "May" test.txt 不区分大小写查找“May”所有的行) grep -n "48" test.txt 显示行号;显示匹配字符“48”的行及行号,相同于 nl test.txt |grep 48) grep -v "48" test.txt 显示输出没有字符“48”所有的行) grep "471" test.txt 显示输出字符“471”所在的行) grep "48<tab>;" test.txt 显示输出以字符“48”开头,并在字符“48”后是一个tab键所在的行 grep "48[34]" test.txt 显示输出以字符“48”开头,第三个字符是“3”或是“4”的所有的行) grep "^[^48]" test.txt 显示输出行首不是字符“48”的行) grep "[Mm]ay" test.txt 设置大小写查找:显示输出第一个字符以“M”或“m”开头,以字符“ay”结束的行) grep "K…D" test.txt 显示输出第一个字符是“K”,第二、三、四是任意字符,第五个字符是“D”所在的行) grep "[A-Z][9]D" test.txt 显示输出第一个字符的范围是“A-D”,第二个字符是“9”,第三个字符的是“D”的所有的行 grep "[35]..1998" test.txt 显示第一个字符是3或5,第二三个字符是任意,以1998结尾的所有行 grep "4\{2,\}" test.txt 模式出现几率查找:显示输出字符“4”至少重复出现两次的所有行 grep "9\{3,\}" test.txt 模式出现几率查找:显示输出字符“9”至少重复出现三次的所有行 grep "9\{2,3\}" test.txt 模式出现几率查找:显示输出字符“9”重复出现的次数在一定范围内,重复出现2次或3次所有行 grep -n "^$" test.txt 显示输出空行的行号 ls -l |grep "^d" 如果要查询目录列表中的目录 同:ls -d * ls -l |grep "^d[d]" 在一个目录中查询不包含目录的所有文件 ls -l |grpe "^d…..x..x" 查询其他用户和用户组成员有可执行权限的目录集合
我和谁都不争,和谁争我都不屑,我爱大自然,其次就是艺术,我双手烤着生命之火取暖,火萎了,我也准备走了。
浙公网安备 33010602011771号