grep,sed对于dos断行的匹配问题

对于DOS行尾CR LF格式的文本文件, sed和grep在不同版本中都不能很好地处理
file file
============
file: ASCII text, with CRLF line terminators
cat file
============
asdf
xyz
GNU sed 3.02
sed -n '/^asdf$/p' file
没有任何输出.
/^asdf\x0d$/, /^asdf\015$/, /^asdf\r/ 都不行
但/^asdf.$/ 却可以, 这就等于说, sed知道这有一个字符, 但你无法以确定的办法表示它.
同样的文件, 在cygwin的GNU sed 4.1.3中却可以正确处理.
对于grep, 在 GNU grep 2.5.1(redhat 8.0, 9.0, cygwin)中,
grep -x 'asdf' file
都不能显示, 跟sed一样, 'asdf.' 行, 但其它形式都不行.
对于grep, 由于它用的比sed 广泛, 所以这一问题的危害也大.

 

 

sed -e 's/^M//g' original.txt > target.txt (注意^M 在Linux/Unix下是这样输入的:先按CTRL+v,接着按CTRL+SHIFT+m)
2. 在vi中替换
UNIX -> Mac:tr "\n" "\r"<unixfile > macfile 
Microsoft DOS/Windows 约定,文本的每行以回车字符(\r)并后跟换行符(\n)结束。为了纠正这个问题,可以使用下列命令: 
DOS -> UNIX:tr -d "\r"<dosfile > unixfile 
UNIX -> DOS:在这种情况下,需要用awk,因为tr不能插入两个字符来替换一个字符。要使用的 awk 命令为 awk '{ print $0"\r" }'<unixfile > dosfile 

附:

关于“回车”(carriage return)和“换行”(line feed)这两个概念的来历和区别。
在计算机还没有出现之前,有一种叫做电传打字机(Teletype Model 33)的玩意,每秒钟可以打10个字符。但是它有一个问题,就是打完一行换行的时候,要用去0.2秒,正好可以打两个字符。要是在这0.2秒里面,又有新的字符传过来,那么这个字符将丢失。
     于是,研制人员想了个办法解决这个问题,就是在每行后面加两个表示结束的字符。一个叫做“回车”,告诉打字机把打印头定位在左边界;另一个叫做“换行”,告诉打字机把纸向下移一行。
这就是“换行”和“回车”的来历,从它们的英语名字上也可以看出一二。
      后来,计算机发明了,这两个概念也就被般到了计算机上。那时,存储器很贵,一些科学家认为在每行结尾加两个字符太浪费了,加一个就可以。于是,就出现了分歧。
Unix 系统里,每行结尾只有“<换行>”,即“\n”;Windows系统里面,每行结尾是“ <回车><换行>”,即“ \r\n”;Mac系统里,每行结尾是“<回车>”。一个直接后果是,Unix/Mac系统下的文件在Windows里打开的话,所有文字会 变成一行;而Windows里的文件在Unix/Mac下打开的话,在每行的结尾可能会多出一个^M符号。

 
 
 
 
 
 
 
 
 

Linux/Unix系统

$ sed -e 's/.$//' mydos.txt > myunix.txt

2)把linux/UNIX 文本移至 Windows 系统,使用以下脚本执行必需的格式转换:

在该脚本中,'$' 规则表达式将与行的末尾匹配,而 '\r' 告诉 sed 在其之前插入一个回车。在换行之前插入回车,立即,每一行就以 CR/LF 结束。请注意,仅当使用 GNU sed 3.02.80 或以后的版本时,才会用 CR 替换 '\r'。

DOS文件格式如何转换成UNIX文件格式
---------------------------------------------------
  dos格式文件传输到unix系统时,会在每行的结尾多一个^M,当然也有可能看不到,但是在vi的时候,会在下面显示此文件的格式,比如 "dos.txt" [dos] 120L, 2532C 字样,表示是一个[dos]格式文件,如果是MAC系统的,会显示[MAC],因为文件格式的原因有时会导致我们的unix程序,或者shell程序出现错误,那么需要把这些dos文件格式转换成unix格式,方法是
vi  dos.txt       
    :set fileformat=unix
    :w                
  这样文件就转换成 unix格式文件了, 一般在windows机器上编写好了文件传到unix下就可能会出现这样的情况.
  用命令:set ff?
   可以看到dos或unix的字样.
  用:set ff=unix把它强制为unix格式   
  也可以用sed 这样的工具来做:
  sed 's/^M//' filename > tmp_filename
  其中^M是同时 Ctrl+V+M按出来的,表示回车。

 

 

对于此类特殊匹配,建议不要使用此匹配,如果非要用,必须先做好测试。

 

posted @ 2017-07-20 22:45  Dothraki  阅读(310)  评论(0)    收藏  举报