Regular Expression(memorandum)

Posted on 2011-12-09 20:44 Jerolin 阅读(178) 评论(0) 收藏举报

摘自百度百科

元字符	描述
.点	匹配任何单个字符。例如正则表达式r.t匹配这些字符串：rat、rut、r t，但是不匹配root。
$	匹配行结束符。例如正则表达式weasel$ 能够匹配字符串"He's a weasel"的末尾但是不能匹配字符串"They are a bunch of weasels."
^	匹配一行的开始。例如正则表达式^When in能够匹配字符串"When in the course of human events"的开始，但是不能匹配"What and When in the"
*	匹配0或多个正好在它之前的那个字符。例如正则表达式 .* 意味着能够匹配任意数量的任何字符。比如<T>.*</T> 可以匹配<T>不管是什么</T>
\	这是引用符，用来将这里列出的这些元字符当作普通的字符来进行匹配。例如正则表达式\$被用来匹配美元符号，而不是行尾，类似的，正则表达式\.用来匹配点字符，而不是任何字符的通配符。
[ ] [c1-c2] [^c1-c2]	匹配括号中的任何一个字符。例如正则表达式r[aou]t匹配rat、rot和rut，但是不匹配ret。可以在括号中使用连字符-来指定字符的区间，例如正则表达式 [0-9]可以匹配任何数字字符；还可以制定多个区间，例如正则表达式[A-Za-z]可以匹配任何大小写字母。另一个重要的用法是“排除”，要想匹配除了指定区间之外的字符——也就是所谓的补集——在左边的括号和第一个字符之间使用^字符，例如正则表达式[^269A-Z] 将匹配除了2、6、9和所有大写字母之外的任何字符。
\< \>	匹配词（word）的开始（\<）和结束（\>）。例如正则表达式\<the\>能够匹配字符串"for the wise"中的"the"，但是不能匹配字符串"otherwise"中的"the"。注意：这个元字符不是所有的软件都支持的。
	将 $ 和 $ 之间的表达式定义为“组”（group），并且将匹配这个表达式的字符保存到一个临时区域（一个正则表达式中最多可以保存9个），它们可以用 \1 到\9 的符号来引用。
\|	将两个匹配条件进行逻辑“或”（Or）运算。例如正则表达式(him\|her) 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：这个元字符不是所有的软件都支持的。
+	匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意：这个元字符不是所有的软件都支持的。
?	匹配0或1个正好在它之前的那个字符。注意：这个元字符不是所有的软件都支持的。
{i} {i,j}	匹配指定数目的字符，这些字符是在它之前的表达式定义的。例如正则表达式A[0-9]{3} 能够匹配字符"A"后面跟着正好3个数字字符的串，例如A123、A348等，但是不匹配A1234。而正则表达式[0-9]{4,6} 匹配连续的任意4个、5个或者6个数字字符。注意：这个元字符不是所有的软件都支持的。

参考：浅谈正则表达式解析过程 / 效率优化

vi:　

vi 命令	作用
:%s/ */ /g	把一个或者多个空格替换为一个空格
:%s/ *$//	去掉行尾的所有空格
:%s/^/ /	在每一行头上加入一个空格
:%s/^[0-9][0-9]* //	去掉行首的所有数字字符
:%s/b[aeio]g/bug/g	将所有的bag、beg、big和bog改为bug。
:%s/t$[aou]$g/h\1t/g	将所有tag、tog和tug分别改为hat、hot和hut（注意用group的用法和使用\1引用前面被匹配的字符）

vi替换命令简介:

　　:ranges/pat1/pat2/g 　　

　　其中　　: 这是Vi的命令执行界面。　　

　　range 是命令执行范围的指定，可以使用百分号（%）表示所有行，使用点（.）表示当前行，使用美元符号（$）表示最后一行。你还可以使用行号，例如10,20表示第10到20行，.,$表示当前行到最后一行，.+2,$-5表示当前行后两行直到全文的倒数第五行，等等。　　

　　s 表示其后是一个替换命令。　　

　　pat1 这是要查找的一个正则表达式，这篇文章中有一大堆例子。　　

　　pat2 这是希望把匹配串变成的模式的正则表达式，这篇文章中有一大堆例子。　　

　　g 可选标志，带这个标志表示替换将针对行中每个匹配的串进行，否则则只替换行中第一个匹配串。

sed:

sed脚本	描述
sed 's/^$/d' price.txt	删除所有空行
sed 's/^[ \t]*$/d' price.txt	删除所有只包含空格或者制表符的行
sed 's/"//g' price.txt	删除所有引号

awk:

awk脚本	描述
awk ' !~ /^$/' price.txt	删除所有空行
awk 'NF > 0' price.txt	awk中一个更好的删除所有行的办法
awk ' ~ /^[JT]/ ' price.txt	打印所有第二个字段是'J'或者'T'打头的行中的第三个字段
awk ' !~ /[Mm]isc/ {print + }' price.txt	针对所有第二个字段不包含'Misc'或者'misc'的行，打印第3和第4列的和（假定为数字）
awk ' !~ /^[0-9]+\.[0-9]*$/ ' price.txt	打印所有第三个字段不是数字的行，这里数字是指d.d或者d这样的形式，其中d是0到9的任何数字
awk ' ~ /John\|Fred/ ' price.txt	如果第二个字段包含'John'或者'Fred'则打印整行

grep:

　　Francis, John 5-3871

　　Wong, Fred 4-4123 　　

　　Jones, Thomas 1-4122 　　

　　Salazar, Richard 5-2522

grep命令	描述
grep '\t5-...1' phone.txt	把所有电话号码以5开头以1结束的行打印出来，注意制表符是用\t表示的
grep '^S[^ ]* R' phone.txt	打印所有姓以S打头和名以R打头的行
grep '^[JW]' phone.txt	打印所有姓开头是J或者W的行
grep ', ....\t' phone.txt	打印所有姓是4个字符的行，注意制表符是用\t表示的
grep -v '^[JW]' phone.txt	打印所有不以J或者W开头的行
grep '^[M-Z]' phone.txt	打印所有姓的开头是M到Z之间任一字符的行
grep '^[M-Z].*[12]' phone.txt	打印所有姓的开头是M到Z之间任一字符，并且点号号码结尾是1或者2的行

egrep:

　　egrep是grep的一个扩展版本，它在它的正则表达式中支持更多的元字符。下面的例子中我们假定在文件phone.txt中包含以下的文本，——其格式是姓加一个逗号，然后是名，然后是一个制表符，然后是电话号码：　　

Francis, John 5-3871 　　

Wong, Fred 4-4123 　　

Jones, Thomas 1-4122 　　

Salazar, Richard 5-2522 　　

egrep命令	描述
egrep '(John\|Fred)' phone.txt	打印所有包含名字John或者Fred的行
egrep 'John\|22$\|^W' phone.txt	打印所有包含John 或者以22结束或者以W的行
egrep 'net(work)?s' report.txt	从report.txt中找到所有包含networks或者nets的行

常用的正则表达式主要有以下几种： 　　

匹配中文字符的正则表达式： [\u4e00-\u9fa5] 　　评注：匹配中文还真是个头疼的事，有了这个表达式就好办了哦　　

获取日期正则表达式：\d{4}[年|\-|\.]\d{\1-\12}[月|\-|\.]\d{\1-\31}日? 　　评注：可用来匹配大多数年月日信息。　　

匹配双字节字符(包括汉字在内)：[^\x00-\xff] 　　评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）　　

匹配空白行的正则表达式：\n\s*\r 　　评注：可以用来删除空白行　　

匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?</>|<.*? /> 　　评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力　　

匹配首尾空白字符的正则表达式：^\s*|\s*$ 　　评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式　　

匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* 　　评注：表单验证时很实用　　

匹配网址URL的正则表达式：[a-zA-z]+://[^\s]* 　　评注：网上流传的版本功能很有限，上面这个基本可以满足需求　　

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 　　评注：表单验证时很实用　　

匹配国内电话号码：\d{4}-\d{7}|\d{3}-\d{8} 　　评注：匹配形式如 0511 - 4405222 或 021 - 87888822 　　

匹配腾讯QQ号：[1-9][0-9]\{4,\} 　　评注：腾讯QQ号从1000 0 开始　　

匹配中国邮政编码：[1-9]\d{5}(?!\d) 　　评注：中国邮政编码为6位数字　　

匹配身份证：\d{17}[\d|X]|\d{15} 　　评注：中国的身份证为15位或18位　　

匹配ip地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。　　评注：提取ip地址时有用　　

匹配特定数字： 　　

^[1-9]\d*$　//匹配正整数　　^-[1-9]\d*$ //匹配负整数　　^-?[1-9]\d*$　//匹配整数　

^[1-9]\d*|0$　//匹配非负整数（正整数 + 0）　　^-[1-9]\d*|0$　//匹配非正整数（负整数 + 0）　　

^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$　//匹配正浮点数　　^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$　//匹配负浮点数　　

^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$　//匹配浮点数　　^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$　//匹配非负浮点数（正浮点数 + 0）　　

^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$　//匹配非正浮点数（负浮点数 + 0）　　

评注：处理大量数据时有用，具体应用时注意修正

-----------------

参考资料

http://baike.baidu.com/view/94238.htm -百度百科，正则表达式

扩展阅读：

http://kb.microembedded.com/regularexpression - Knowledge ME 正则表达式之道
http://www.cn-dos.net/forum/viewthread.php?tid=24206&fpage=1&highlight=%E6%AD%A3%E5%88%99
http://zhidao.baidu.com/question/12878982.html
http://editplus.com/files.html

刷新页面返回顶部

Jerolin

公告

Regular Expression(memorandum)