Coding with passion

首页 新随笔 联系 订阅 管理
  14 Posts :: 0 Stories :: 114 Comments :: 1 Trackbacks

又发现了一个 .net 的 bug!最近在使用正则表达式的时候发现:在忽略大小写的时候,匹配值从 0xff 到 0xffff 之间的所有字符,正则表达式竟然也能匹配两个 ASCII 字符:i(code: 0x69) 和 I(code: 0x49);但是仍然不能匹配其他的 ASCII 字母和数字。

比如以下的代码就是用来测试用正则表达式匹配从 0xff 到 0xffff 的字符。而值范围在 0 到 0xfe 的所有字符是不能被匹配的。

Regex regex = new Regex(@"[\u00FF-\uFFFF]+");

// The characters, whoes value are smaller than 0xff, are not expected to be matched.
for (int i = 0; i < 0xff; i++) {
  string s = new string(new char[] { (char)i });
  Debug.Assert(
    !regex.IsMatch(s),
    string.Format("The character was not expected to be matched: 0x{0:X}!", i));
}

// However, the characters whoes value are greater than 0xfe are expected to be matched.
for (int i = 0xff; i <= 0xffff; i++) {
  string s = new string(new char[] { (char)i });
  Debug.Assert(
    regex.IsMatch(s),
    string.Format("The character was expected to be matched: 0x{0:X}!", i));
}

这时的运行结果是正常的,没有任何的断言错误出现。

然而当使用忽略大小写的匹配模式时,结果就不一样了。将上面代码中的第一行改成:

Regex regex = new Regex(@"[\u00FF-\uFFFF]+", RegexOptions.IgnoreCase);
  

程序运行的时候就会有两处断言错误。它们分别是字符值为 73 和 105,也就是小写字母 i 和大写字母 I。 这个 bug 非常奇怪,别的字符都很正常!而且用 javascript 脚本在 IE (版本是6.0)里面运行也同样有这么 bug 存在(比如下面这段代码)。然而在 Firefox 中运行就是没有问题的。还是 Firefox 好啊,呵呵!

var re = /[\u00FF-\uFFFF]+/;
// var re = /[\u00FF-\uFFFF]+/i;

for(var i=0; i<0xff; i++) {
  var s = String.fromCharCode( i );
  if ( re.test(s) ){
    alert( 'Should not be matched: ' + i + '!' );
  }
}


for(var i=0xff; i<=0xffff; i++) {
  var s = String.fromCharCode( i );
  if ( !re.test(s) ){
    alert( 'Should be matched: ' + i + '!' );
  }
}
posted on 2007-10-22 22:56 Kellin 阅读(2542) 评论(6)  编辑 收藏

Feedback

#1楼  2007-10-23 07:41 布尔      
至少我在ie里没有出现你说的这个bug
  回复  引用  查看    

#2楼 [楼主] 2007-10-23 07:54 Kellin      
@布尔
你用的是什么版本?IE 7 好像是没什么问题的。我这里 IE 6 是有问题的。另外文中有问题的脚本是那句被注释的:
// var re = /[\u00FF-\uFFFF]+/i;


  回复  引用  查看    

#3楼  2007-10-23 08:57 亚历山大同志      
.NET的正则表达式经常莫名其妙的资源耗尽,所以虽然强大,但是我倒是愿意能不用则不用
  回复  引用  查看    

#4楼  2007-10-23 09:52 光阴四溅      
@亚历山大同志
.net正则表达式经常莫名其妙的资源耗尽
这个跟表达式的写法有关系
另外, 应该不是.net的regex吧

很想知道这个bug的原因
  回复  引用  查看    

#5楼  2007-10-23 13:31 A.Z      
            // The characters, whoes value are smaller than 0xff, are not expected to be matched.
            for (int i = 0xff; i <= 0xffff; i++)
            {
                Debug.Assert(
                  !Regex.IsMatch(((Char)0x69).ToString(), string.Format(@"[\u{0:X4}]", i), RegexOptions.IgnoreCase),
                  string.Format("The character was not expected to be matched: 0x{0:X4}!", i));
            }

0x0130 ->


  回复  引用  查看    

#6楼  2008-05-18 20:52 fengfeng [未注册用户]
是啊,有bug,在我用替换‘|’时 有 RegexOptions.IgnoreCase就不起作用,看到你的这篇文章受了启发,去掉就可以了。

  回复  引用    


标题  
姓名  
主页
Email (只有博主才能看到) 
验证码 *  看不清,换一张 [登录][注册]
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      


相关链接: