[ActionScript 3.0] 正则表达式

正则表达式：
正则表达式最早是由数学家Stephen Kleene在对自然语言的递增研究成果的基础上，于1956提出来的。具有完整语法的正则表达式，主要使用在字符串的格式的匹配方面上，后来也逐渐应用到信息技术领域。不同的编程语言对于正则表达式有细微的不同，ActionScript 3.0是按照ECMAScript第3版语言规范(ECMA-262)中的定义实现正则表达式。
熟悉windows操作系统读者，应该知道windows中是怎样查找文件的。不错，使用通配符“*”用来匹配任意字符，“？”用来匹配一个字符，来实现搜索功能的。
字符是计算机软件处理文字时最基本的单位，可能是字母，数字，标点符号，空格，换行符，汉字等等。字符串是0个或更多个字符的序列。文本也就是文字，字符串。说某个字符串匹配某个正则表达式，通常是指这个字符串里有一部分（或几部分分别）能满足表达式给出的条件。
在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。
在ActionScript 3.0中引入了强大的字符串处理工具――正则表达式。正则表达式主要用于验证文本字段的值是否符合特定模式，比如验证用户输入的电话号码位数是否正确；或者替换与特定模式匹配的部分文本值。
 
正则表达式的构成:正则表达式一般由两个部分组成。一部分是在双斜杠内部的字符串，称为匹配模式，用来表示要匹配的字符串的特征；另一部分是在第二个斜杠的后面，是一个字母，叫做正则表达式的标志位，由五个字母组合而成，匹配模式由两部分组成，分别为：普通字符（例如字符a到z）和特殊字符（称为元字符）。正则表达式描述在查找字符串时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。
正则表达式的定义方法有两种，一种是上例中的方法，使用双斜杠来定义，语法格式如下所示：
var re1:RegExp=/\d{3}/g;
var re2:RegExp=new RegExp("\d{3}","g");
 
正则表达式的语法:ActionScript 3.0中的正则表达式是按照ECMAScript第3版语言规范(ECMA-262)中语言规范的定义的。在实际应用过程中，正则表达式都比较复杂。不过复杂的正则表达式都是按照一定的语法规则组合而成。
1）正则表达式中的普通字符
正则表达式中的普通字符，包括大小写英文字母，从0到9的数字和除了元字符的其它字符，比如＃、！等。注意，中文也属于普通字符，不过它在正则表达式中使用Unicode码表示。由普通字符组成的正则表达式是简单的正则表达式。
下面是几个使用普通字符的正则表达式，代码如下所示：
//使用英文字母作为正则表达式匹配模式
var pattern1:RegExp = /hello/;
//使用中文字符作为正则表达式匹配模式
var pattern2:RegExp = /正则/;
//使用中英文混合字符作为正则表达式匹配模式
var pattern3:RegExp = /正则hello/;
//使用符号和英文字母作为正则表达式匹配模式
var pattern4:RegExp = /＃hello～/;

2）正则表达式中的元字符
正则表达式中定义了一些具有特殊含义的字符，这些字符在正则表达式中有特殊的含义，称为元字符。ActionScript 3.0中的元字符如表17-1所示：
1．匹配字符串头部字符
2．匹配字符串尾部字符
3．反斜杠转义字符
4．匹配单个字符
5．数量表示符
6．逻辑“或”操作符

3）正则表达式中的元序列
元序列是指在ActionScript 3.0中具有特殊含义的字符序列。ActionScript 3.0中的元序列如表所示：
元序列     说  明 
{n}{n,}和{n,n}   指定前一项目的数值数量或数量范围，属于数量标识符。  
\b      匹配单词字符和非单词字符之间的位置。 
\B      匹配两个单词字符之间的位置，也匹配两个非单词字符之间的位置。 
\d      匹配十进制数字。 
\D      匹配除数字以外的任何字符。 
\f      匹配换页符。 
\n      匹配换行符。 
\r      匹配回车符。 
\s      匹配任何空白字符（空格、制表符、换行符或回车符）。 
\S      匹配除空白字符以外的任何字符。 
\t      匹配制表符。 
\unnnn     匹配字符代码由十六进制数字 nnnn 指定的 Unicode 字符。 
\v      匹配垂直换页符。 
\w      匹配单词字符（A-Z、a-z、0-9 或 _）。请注意，\w 不匹配非英文字符，如 é、Ò 或 Á。 
\W      匹配除单词字符以外的任何字符。 
\xnn     匹配具有指定 ASCII 值（由十六进制数字 nn定义）的字符。 

4）正则表达式中的字符类
字符类是指定义的一组字符以匹配正则表达式中的一个位置。此类使用元字符方括号[]来定义。例如，下面的正则表达式定义了匹配mat、mbt、mct、mdt或met的字符类：
/m[abcde]t/
字符类实现了字符类中只有一个字符符合特征要求，那么就能够实现字符串的匹配。下面示例实现字符类的匹配操作，代码如下所示：
//定义要检测的字符正则表达式
//检查字符串中是否存在正×则
var pattern1:RegExp = /正[123]则/g;
//要检测的字符串
var str1:String="正1则表达式/是一段检测代码，可以是正2则"
//使用String类的match()方法验证
trace(str1.match(pattern1))//输出：正1则,正2则
trace(str1.match(pattern1).length)//输出：2，说明有2个匹配

5）正则表达式中的标志位
标志指指定有关应如何使用正则表达式模式的一些选项，如是否区分大写和小写字符等。这些标志对应与正则表达式类的属性。在ActionScript3.0中有5个标志位，如表所示：
标志  属性   说    明 
g   global   匹配多个匹配。 
i   ignoreCase  不区分大小写的匹配。应用于 A-Z 和 a-z 字符，但不能应用于扩展字符，如 É 和 é。 
m   multiline  设置此标志后，$ 和 ^ 可以分别匹配行的开头和结尾。 
s   dotall   设置此标志后，.（点）可以匹配换行符 (\n)。 
x   extended  允许扩展的正则表达式。 

正则表达式的用法:
在ActionScript3.0中，要搜索和检测正则表达式，既可以利用RegExp类的方法来实现，也可以利用String类的方法类来实现。
1）RegExp类
RegExp类是ActionScript 3.0中的顶级类，它允许使用正则表达式在字符串中执行搜索和替换文本的模式。其有7个属性，如表所示：

正则表达式类属性 

属性   返回类型  说明 
dotall   Boolean  指定正则表达式模式中的点字符(.)是否与换行符相匹配。 
extended  Boolean  指定是否为正则表达式使用扩展模式。 
global   Boolean  指定是否为正则表达式使用全局匹配。 
ignoreCase  Boolean  指定正则表达式是否忽略大小写。 
lastIndex  Number   指定字符串中开始进行下一次搜索的索引位置。 
multiline  Boolean  指定是否设置了 m（多行）标志。 
source   String   指定正则表达式的模式部分。 

2）String类的方法应用
String类与正则表达式的结合，能够实现更为丰富的匹配和搜索效果。在ActionScript 3.0中，String类的search()方法、match()方法和replace()方法常用于正则表达式操作。本节将介绍这三种方法与正则表达式的综合应用。
search()方法主要用于查找作业，返回搜到的字符串的位置索引；match()方法实现的是匹配作业，返回的是匹配的字符串；replace()方法实现替换作业，返回的是替换的结果。


AS3中的正则表达式是RegExp顶级类的实例。这意味着使用RegExp对象时不需要import任何类。

☆理解正则表达式标记
默认情况下，所有标记都为关闭状态。
　　g：全局标记，允许表达式在源文本中重复使用，直到没有其他匹配为止。如果未设定该标记，则表达式将返回第一个匹配。
　　i：忽略大小写标记，默认情况下，所有字母数字比较都是大小写敏感的。
　　m：多行标记，修改^和$锚点在表达式中的行为。关闭时，它们匹配整个文本的首末字符，开启后，它们匹配每行的首末字符。
　　s：dotall标记，未设定时点匹配换行符之外的所有字符，设定后点匹配包括换行符在内的任何可能的字符。singleline
　　x：扩展标记，设定后将忽略表达式中的空白符，除非经过转义
　　全局标记适用于match()、replace()、test()、exec()方法。在String.match()中，它将决定返回第一个匹配和捕获分组的数组（未设定），还是返回所有匹配的数组（设定）；在String.replace()中，该标记将指定替换第一个匹配（未设定）还是替换所有匹配（设定）。在RegExp.test()和RegExp.exec()中，如果设定了全局标记，则表达式将继续匹配源文本中的第n个字符，其中n是表达式的lastIndex属性。该属性在每次匹配之后设定，因此如果设定了全局标记，则可以使用RegExp.test()或RegExp.exec()通过循环渐进式遍历所有的匹配。如果未设定全局标记，这些方法将返回从第一个字符开始的第一处匹配。
☆应用正则表达式
·测试
RegExp.test(str:String):Boolean
·定位
String.search(pattern:*):int //没有匹配则返回-1
RegExp.exec(str:String):Object //没有匹配则返回null，这是一个有状态的函数，可以记住上次匹配的位置
var s:String="H12_34_BCD";
var r:RegExp=/\d{2}/ig;
var obj:Object=r.exec(s);
if(obj!=null){
   trace(obj);//12
   trace(obj.index);//1
}
obj=r.exec(s);
if(obj!=null){
   trace(obj);//34
   trace(obj.index);//4
}
·识别
RegExp.exec(str:String):Object

var s:String="H12_34_BCD";
var r:RegExp=/\d{2}/ig;
var obj:Object;
while(obj=r.exec(s)){
   for(var o:String in obj){
    trace(o,obj[o]);
   }
}
/*
   输出结果
   0 12
   index 1
   input H12_34_BCD
   0 34
   index 4
   input H12_34_BCD
   exec()返回的对象包含带有下标的属性和命名属性，并且第一个下标含有与模式匹配的文本
*/
String.match(pattern:*):Array
返回与传递给它的模式相匹配的字符串，没有匹配返回null。
var s:String="H12_34_BCD";
var r:RegExp=/\d{2}/ig;
var obj:Array=s.match(r);
trace(obj.length);//2
·提取
String.match(pattern:*):Array

var s:String="H12_34_BCD";
var r1:RegExp=/_(\d{2})/g;
var r2:RegExp=/_(\d{2})/;
trace(s.match(r1).length);//1
trace(s.match(r2).length);//2
trace(s.match(r2)[0]);//_34
trace(s.match(r2)[1]);//34
传递给match()方法的表达式拥有全局标记集时，将在数组中返回与模式匹配的所有字串。其中包含所有捕获的内容。
传递给match()方法的表达式没有任何全局标记集时，它将在数组中返回第一个匹配的子串和该匹配表达式中的捕获分组。
RegExp.exec(str:String):Object

var s:String="H12_34_BCD";
var r:RegExp=/((\d)(\d))/ig;
var obj:Object;
while (obj=r.exec(s)) {
   for (var o:String in obj) {
    trace(o,obj[o]);
   }
}
/*
   输出结果
   0 12
   1 12
   2 1
   3 2
   index 1
   input H12_34_BCD
   0 34
   1 34
   2 3
   3 4
   index 4
   input H12_34_BCD
   从结果可以看到exec()方法更方便些
*/
·替换
String.replace(pattern:*,repl:Object):String
如果表达式中含有捕获分组，那么在替换文本时可以在替换字符串内部使用捕获文本。通过在替换字符串中使用命名为$1、$2……$99的变量，可以在替换文本中使用第1、第2和第99个捕获分组。
要为替换文本添加几分色彩，可以向replace()方法传递一个替换函数，而不是替换字符串。函数将接收匹配文本、该匹配的所有捕获分组和上下文中的完整字符串，并且可以实现任何所需的替换操作。
var s:String="H12_34_BCD";
var r:RegExp=/\d(\d)/ig;
var refun:Function=function refun(...args):String{
   var rtn:String;
   for(var i:int=0;i<args.length;i++){
    rtn=args[i];
    trace("------",rtn);
   }
   return rtn;
}
trace(s.replace(r,refun));
/*
   输出结果
   ------ 12
   ------ 2
   ------ 1
   ------ H12_34_BCD
   ------ 34
   ------ 4
   ------ 4
   ------ H12_34_BCD
   HH12_34_BCD_H12_34_BCD_BCD
*/
·拆分
String.split(delimiter:*,limit:Number=0x7fffffff):Array

☆构建表达式
如果设定了dotall标记，那么.将匹配任何字符，包括换行符。
var con:String=
"Call us at one of these numbers.\n"+
"Los Angeles:310-555-2910\n"+
"New York:212-555-2499\n"+
"Boston: 617-555-7141";
var re:RegExp=/^([\w\s]+):\s*(\d{3}-\d{3}-\d{4})/gm;
//var matches:Array=con.match(re);
//for(var i:int=0;i<matches.length;i++){
// trace(matches[i]);
//}
var obj:Object;
while(obj=re.exec(con)){
trace(obj[2]);
}
☆构建高级表达式
var s:String=
"<a href=\"http://www.baidu.com\"><span class=\"seoa\">BaiDu</span></a>\n"+
"<a href=\"http://www.google.cn\">Google</a>\n"+
"<li>Ha~~~</li>\n";
var r:RegExp=/<(\w+)[^>]*> .*? <\/\1>/ixg;
var o:Object;
while(o=r.exec(s)){
trace(o[0]);
}
posted on 2015-06-01 16:17 晏过留痕阅读(524) 评论(0) 收藏举报