linux命令之sed, awk, grep, cut篇

用下来感觉这4个命令比较常用,功能也比较强大,等我有时间了要好好整理一下。

首先介绍一下cut,之前有文章已经讲过它的用法了,这次连带cut的死对头paste,一起拎出来讲讲。

第一篇 cut

常用参数:
-c 根据字符,用法:cut -cnum1-num2 filename 截取num1~num2之间的字符,字符从1开始记。
-f 根据域,默认为tab分隔
-d 定义域分隔符

范例:

shell> cat example
test2
this is test1
shell> cut -c1-6 example ## print 开头算起前 6 个字元
test2
this i

-c m-n 表示显示每一行的第m个字元到第n个字元。例如:

---------file-----------
liubi 23 14000
---------file-----------
# cut -c 1-5,10-14 file
liubi 14000

-f m-n 表示显示第m栏到第n栏(使用tab分隔)。例如:
---------file-----------
liubi 23 14000
---------file-----------
# cut -f 1,3 file
liubi 14000

-c 和 -f 参数可以跟以下子参数:
m 第m个字符或字段
m- 从第m个字符或字段到文件结束
m-n 从第m个到第n个字符或字段
-n 从第1个到第n个字符或字段

我们经常会遇到需要取出分字段的文件的某些特定字段,例如 /etc/password就是通过":"分隔各个字段的。可以通过cut命令来实现。例如,我们希望将系统账号名保存到

特定的文件,就可以:
cut -d: -f 1 /etc/passwd > /tmp/users
-d用来定义分隔符,默认为tab键,-f表示需要取得哪个字段
如:
使用|分隔
cut -d'|' -f2 1.test>2.test
使用:分隔
cut -d':' -f2 1.test>2.test
这里使用单引号或双引号皆可。

对于特殊字符用\来转义(以“-”为分隔符切割后,要第一个字段):
BGIOSGA005099-TA
BGIOSGA005310-TA
cut -d\- -f 1 file >out
或者:cut "\-" -f 1 file >out

cut的死对头:paste
paste file1 file2 >file3
把文件1与文件2按列合并(有没有发现跟cut正好相反呢?)
$ less 111
abc ddd eee
$ less 222
123 444 555

$ paste 111 222 >333
$ less 333
abc ddd eee     123 444 555-d参数可以自定义分隔符
$ paste -d: 111 222 >444
$ less 444
abc ddd eee:123 444 555

paste命令还有一个很有用的选项"-"。意即对每一个"-",从标准输入中读一次数据。-d参数来定义分隔符。以一个3列格式显示目录列表。方法如下:
$ ls |paste -d: - - -     #注意,"-""-"之间有空格
block_info_down_1000:block_info_down_3000:sv_test
block_info_up1000:block_info_up3000:module_indel_sv
module_test:old:regulation_region_down.pl
sample.Q20.down1000:sample.Q20.down3000:sample.Q20.up1000
sample.Q20.up3000:sample_to_9311.snp.Q20.filter.sort:sample_to_test

第二篇 awk
awk 用法:awk ' pattern {action} '

变量名 含义
ARGC 命令行变元个数
ARGV 命令行变元数组
FILENAME 当前输入文件名
FNR 当前文件中的记录号
FS 输入域分隔符,默认为一个空格
RS 输入记录分隔符
NF 当前记录里域个数
NR 到目前为止记录数
OFS 输出域分隔符
ORS 输出记录分隔符

用法介绍:
1,模式匹配
awk '/zqy/' fileA #寻找出fileA中含有zqy的行 等同于awk '$0~/zqy/' fileA
awk '$1~/88/' fileA #找出第一个域里面包含88的行
awk '$1~/88/{print $2}' fileA #找出第一个域里面包含88的行后,只打印该行的第二个域

2,对不同的域进行操作
awk '$2 >25 && $2<=55' fileA #找出第二个域里面满足条件的行,可以加上{print $n}来打印任意域
############### fileB #################
884     46      1       8       5       944
734     41      0       10      2       787
647     29      1       8       1       686
536     26      1       9       0       572
############### fileB #################
$ less fileB
884     46      1       8       5       944
734     41      0       10      2       787
647     29      1       8       1       686
536     26      1       9       0       572
$awk '{print NR,NF,$NF}' fileB # NR:文件当前记录号(在这里可以理解为行数); NF:总的域的个数(可以理解为列数); $NF:想一想是什么东西吧?再不知道就撞墙去吧。
1 6 944
2 6 787
3 6 686
4 6 572

3,通过-F参数来改变域分隔符,FS设置输入分隔符,OFS设置输出分隔符,awk所有操作都支持管道。如:
df | awk '$4>1000000 '          通过管道符获得输入,如:显示第4个域满足条件的行。
awk -F "|" '{print $1}' file 按照新的分隔符“|”进行操作。
awk 'BEGIN { FS="[: \t|]"}{print $1,$2,$3}' file 通过设置输入分隔符(FS="[: \t|]")修改输入分隔符。BEGIN 表示在处理任意行之前进行的操作。
awk 'BEGIN { OFS="%"} {print $1,$2,$3}' file 通过设置输出分隔符(OFS="%")修改输出格式。
Sep="|"
awk -F $Sep '{print $1}' file 按照环境变量Sep的值做为分隔符。   
awk -F '[ :\t|]' '{print $1}' file 按照正则表达式的值做为分隔符,这里代表空格、:、TAB、|同时做为分隔符。
awk -F '[][]' '{print $1}' file 按照正则表达式的值做为分隔符,这里代表[、]

4、
awk -f awkfile file 通过文件awkfile的内容依次进行控制。
cat awkfile
/101/{print "\047 Hello! \047"} --遇到匹配行以后打印 ' Hello! '.\047代表单引号。
{print $1,$2}                    --因为没有模式控制,打印每一行的前两个域。

5、
awk 'BEGIN { max=100 ;print "max=" max} {max=($1 >max ?$1:max); print $1,"Now max is "max}' file 取得文件第一个域的最大值。
awk '{print ($1>4 ? "high "$1: "low "$1)}' file

6、
awk '{$1 == 'Chi' {$3 = 'China'; print}' file 找到匹配行后先将第3个域替换后再显示该行(记录)。
awk '{$7 %= 3; print $7}' file 将第7域被3除,并将余数赋给第7域再打印。

7、
awk '/tom/ {wage=$2+$3; printf wage}' file 找到匹配行后为变量wage赋值并打印该变量。

8、
awk '/tom/ {count++;} END {print "tom was found "count" times"}' file #END表示在所有输入行处理完后进行处理。

9、awk 'gsub(/\$/,"");gsub(/,/,""); cost+=$4;END {print "The total is $" cost>"filename"}' file   gsub函数用空串替换$和,再将结果输出到filename中。
     1 2 3 $1,200.00
     1 2 3 $2,300.00
     1 2 3 $4,000.00

     awk '{gsub(/\$/,"");gsub(/,/,"");
     if ($4>1000&&$4<2000) c1+=$4;
     else if ($4>2000&&$4<3000) c2+=$4;
     else if ($4>3000&&$4<4000) c3+=$4;
     else c4+=$4; }
     END {printf   "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"' file
     通过if和else if完成条件语句

     awk '{gsub(/\$/,"");gsub(/,/,"");
     if ($4>3000&&$4<4000) exit;
     else c4+=$4; }
     END {printf   "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"' file
     通过exit在某条件时退出,但是仍执行END操作。
     awk '{gsub(/\$/,"");gsub(/,/,"");
     if ($4>3000) next;
     else c4+=$4; }
     END {printf   "c4=[%d]\n",c4}"' file
     通过next在某条件时跳过该行,对下一行执行操作。


10、awk '{ print FILENAME,$0 }' file1 file2 file3>fileall 把file1、file2、file3的文件内容全部写到fileall中,并前置文件名。

11、awk ' $1!=previous { close(previous); previous=$1 } {print substr($0,index($0," ") +1)>$1}' fileall 把合并后的文件重新分拆为3个文件。并与原文件一致。

12、awk 'BEGIN {"date"|getline d; print d}'          通过管道把date的执行结果送给getline,并赋给变量d,然后打印。

13、awk 'BEGIN {system("echo \"Input your name:\\c\""); getline d;print "\nYour name is",d,"\b!\n"}'
     通过getline命令交互输入name,并显示出来。
     awk 'BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}'
     打印/etc/passwd文件中用户名包含050x_的用户名。

14、awk '{ i=1;while(i<NF) {print NF,$i;i++}}' file 通过while语句实现循环。
     awk '{ for(i=1;i<NF;i++) {print NF,$i}}'    file 通过for语句实现循环。    
     type file|awk -F "/" '
     { for(i=1;i<NF;i++)
     { if(i==NF-1) { printf "%s",$i }
     else { printf "%s/",$i } }}'                显示一个文件的全路径。
     用for和if显示日期
     awk   'BEGIN {
for(j=1;j<=12;j++)
{ flag=0;
   printf "\n%d月份\n",j;
         for(i=1;i<=31;i++)
         {
         if (j==2&&i>28) flag=1;
         if ((j==4||j==6||j==9||j==11)&&i>30) flag=1;
         if (flag==0) {printf "%02d%02d ",j,i}
         }
}
}'

15、在awk中调用系统变量必须用单引号,如果是双引号,则表示字符串
Flag=abcd
awk '{print '$Flag'}'    结果为abcd
awk '{print   "$Flag"}'    结果为$Flag

grep正则表达式元字符集:

^ 锚定行的开始 如:'^grep'匹配所有以grep开头的行。
$ 锚定行的结束 如:'grep$'匹配所有以grep结尾的行。
. 匹配一个非换行符的字符 如:'gr.p'匹配gr后接一个任意字符,然后是p。
* 匹配零个或多个先前字符 如:'*grep'匹配所有一个或多个空格后紧跟grep的行。 .*一起用代表任意字符。
[] 匹配一个指定范围内的字符,如'[Gg]rep'匹配Grep和grep。
[^] 匹配一个不在指定范围内的字符,如:'[^A-FH-Z]rep'匹配不包含A-R和T-Z的一个字母开头,紧跟rep的行。
\(..\) 标记匹配字符,如'\(love\)',love被标记为1。
\< 锚定单词的开始,如:'\<grep'匹配包含以grep开头的单词的行。
\> 锚定单词的结束,如'grep\>'匹配包含以grep结尾的单词的行。
x\{m\} 重复字符x,m次,如:'0\{5\}'匹配包含5个o的行。
x\{m,\} 重复字符x,至少m次,如:'o\{5,\}'匹配至少有5个o的行。
x\{m,n\}重复字符x,至少m次,不多于n次,如:'o\{5,10\}'匹配5--10个o的行。
\w 匹配文字和数字字符,也就是[A-Za-z0-9],如:'G\w*p'匹配以G后跟零个或多个文字或数字字符,然后是p。
\b 单词锁定符,如: '\bgrep\b'只匹配grep。




常用的 grep 选项有:
-c 只输出匹配行的个数。
-i 不区分大小写(只适用于单字符)。
-h 查询多文件时不显示文件名。
-l 查询多文件时只输出包含匹配字符的文件名。
-n 显示匹配行及行号。
-s 不显示不存在或无匹配文本的错误信息。
-v 显示不包含匹配文本的所有行。
-V 显示软件版本信息


使用grep匹配时最好用双引号引起来,防止被系统误认为参数或者特殊命令,也可以匹配多个单词。




关于匹配的实例:
grep -c "48" test.txt 统计所有以“48”字符开头的行有多少
grep -i "May" test.txt 不区分大小写查找“May”所有的行)
grep -n "48" test.txt 显示行号;显示匹配字符“48”的行及行号,相同于 nl test.txt |grep 48)
grep -v "48" test.txt 显示输出没有字符“48”所有的行)
grep "471" test.txt 显示输出字符“471”所在的行)
grep "48<tab>;" test.txt 显示输出以字符“48”开头,并在字符“48”后是一个tab键所在的行
grep "48[34]" test.txt 显示输出以字符“48”开头,第三个字符是“3”或是“4”的所有的行)
grep "^[^48]" test.txt 显示输出行首不是字符“48”的行)
grep "[Mm]ay" test.txt 设置大小写查找:显示输出第一个字符以“M”或“m”开头,以字符“ay”结束的行)
grep "K…D" test.txt 显示输出第一个字符是“K”,第二、三、四是任意字符,第五个字符是“D”所在的行)
grep "[A-Z][9]D" test.txt 显示输出第一个字符的范围是“A-D”,第二个字符是“9”,第三个字符的是“D”的所有的行
grep "[35]..1998" test.txt 显示第一个字符是3或5,第二三个字符是任意,以1998结尾的所有行
grep "4\{2,\}" test.txt 模式出现几率查找:显示输出字符“4”至少重复出现两次的所有行
grep "9\{3,\}" test.txt 模式出现几率查找:显示输出字符“9”至少重复出现三次的所有行
grep "9\{2,3\}" test.txt 模式出现几率查找:显示输出字符“9”重复出现的次数在一定范围内,重复出现2次或3次所有行
grep -n "^$" test.txt 显示输出空行的行号
ls -l |grep "^d" 如果要查询目录列表中的目录 同:ls -d *
ls -l |grep "^d[d]" 在一个目录中查询不包含目录的所有文件
ls -l |grpe "^d…..x..x" 查询其他用户和用户组成员有可执行权限的目录集合

 

posted @ 2017-08-05 18:34  yijiaotu  阅读(274)  评论(0)    收藏  举报