提取信息中的网络链接:
(h|H)(r|R)(e|E)(f|F)   *=   *('|")?("w|""|"/|".)+('|"|   *|>)?  

提取信息中的邮件地址:
"w+([-+.]"w+)*@"w+([-.]"w+)*"."w+([-.]"w+)*  

提取信息中的图片链接:
(s|S)(r|R)(c|C)   *=   *('|")?("w|""|"/|".)+('|"|   *|>)?

提取信息中的ip地址:  
("d+)".("d+)".("d+)".("d+)    

提取信息中的中国手机号码:
(86)*0*13"d{9}    

提取信息中的中国固定电话号码:
("("d{3,4}")|"d{3,4}-|"s)?"d{8}    

提取信息中的中国电话号码(包括移动和固定电话):
("("d{3,4}")|"d{3,4}-|"s)?"d{7,14}    

提取信息中的中国邮政编码:
[1-9]{1}("d+){5}    

提取信息中的中国身份证号码:
"d{18}|"d{15}    

提取信息中的整数:
"d+    

提取信息中的浮点数(即小数):
(-?"d*)".?"d+    

提取信息中的任何数字   :
(-?"d*)("."d+)?  

提取信息中的中文字符串:
["u4e00-"u9fa5]*    

提取信息中的双字节字符串   (汉字):
[^"x00-"xff]*  

提取信息中的英文字符串:

"w*

 过滤html标签

<[^>]+>

Posted on 2008-10-31 21:45  Yongming Ye  阅读(97)  评论(0)    收藏  举报