代码改变世界

QT的正则表达式陷阱

2011-03-29 10:30  zhoujie  阅读(985)  评论(0编辑  收藏  举报

        文本解析是每天编程中的常见问题.使用成熟的解析器或者解析器生成器有点小题大作,很多问题可以通过QT的正则表达式很快的解决。然而,你知道正在表达式的陷阱吗?下面我们通过实例来说明这些陷阱并给出解决方法。


1、贪婪陷阱:
我们通常要匹配一段文本的开始和结束,例如HTML中的<li>test</li>这样的文本,我们通常会写如下的正则表达式:

QRegExp rx("<li>.*</li>");

但是有时这并不是我们想要的,如果存在下面的文本:
<li>test</li> <div>this is a div</div> <li>test2</li>  上面的正则表达式并不会匹配<li>test</li>,而是整个文本<li>test</li> <div>this is a div</div> <li>test2</li> 。

这就是 .* 号的贪婪特性。解决方法很简单,调用下面方法告诉正则不用太贪:

rx.SetMinimal( True );