JAVA的正则表达式

一、前言

正则表达式这个东西，基本哪一种语言都有。

例如数据库的oracle,前后端高级编程语言。

很多工具也支持正则，例如至少ue，Notepad++,好一点的编程ide(eclipse,idea,vscode)。

正则实在是一个利器，是程序员必须掌握的一个技能。

如果工作了几年，正则还用不明白，那么算不上是一个合格的程序员。

二、概念

正则表达式这个概念是外国人先提起来的，英文regular expression。

regular翻译过来的几个含义（参见regular (youdao.com))：

恒定的，规则的（尤指间隔相同）；经常做（或发生）的，频繁的；经常做某事的，常去某地的；惯常的，通常的；持久的，固定的；<美>标准尺寸的，中号的；普通的，平凡的；常备军的，正规军的；（动词或名词）按规则变化的；（人）正常通便的，月经正常的；<非正式> 完全的，彻底的；（花）呈放射状对称的；等边的，匀称的；（冲浪等有板运动用语）左腿在前的；（人）受过适当培训（或取得适当资格）并从事全职工作的，有正式工作的；符合手续（或规定）的，正当的；（基督教）受教规约束的，属于修道会的

结合个人的体验，应该用的“规则的”这个意思。

那么为什么汉语会把regular expression 翻译为正则表达式/正则式？这个“正“是什么意思？

这个问题许多人都有疑问，部分人给出了答案：

1.实用角度，如果总用“规则”，那么不容易确定是什么“规则”，可能较为容易浪费一些时间。

2.其次，“正”这里做动词用，意思是规整，归正，端正。例如“居者思正其家,行者乐出其途。——柳宗元《全义县复北门记》“”

所以，“正则表达式”的准确含义是：使得文本符合规则的表达式。

三、体系

正则表达式起源：https://blog.csdn.net/weixin_43735348/article/details/101516794

正则表达式起源于1951年，当时数学家Stephen Cole Kleene使用他的称为正则事件的数学符号描述了正则语言。这些出现在理论计算机科学，自动机理论（计算模型）以及形式语言的描述和分类的子领域中。
模式匹配的其他早期实现包括SNOBOL语言，该语言不使用正则表达式，而是使用其自己的模式匹配结构。
从1968年开始，正则表达式有两种用法：在文本编辑器中进行模式匹配和在编译器中进行词法分析。
程序形式的正则表达式的首次出现是Ken Thompson将Kleene的符号内置到编辑器QED中的一种方式，以匹配文本文件中的模式。
为了提高速度，Thompson通过即时编译（JIT）对Compatible Time-Sharing System上的IBM 7094代码实施了正则表达式匹配，这是JIT编译的重要早期示例。
后来，他将此功能添加到Unix编辑器ed中，最终导致了流行的搜索工具grep使用正则表达式（“ grep”是从ed编辑器中用于正则表达式搜索的命令衍生的单词：g / re / p表示“全局搜索正则表达式和打印匹配行”）。
在汤普森开发QED的同时，包括Douglas T. Ross在内的一组研究人员实现了一种基于正则表达式的工具，该工具用于编译器设计中的词法分析。
这些原始形式的正则表达式的许多变体在1970年代的Bell Labs的Unix 程序中使用，包括vi，lex，sed，AWK和expr，以及其他程序（例如Emacs）。随后，正则表达式被各种程序采用，这些早期形式在1992年的POSIX.2标准中得到了标准化。

在1980年代，Perl中出现了更复杂的正则表达式，最初是由Henry Spencer（1986）编写的正则表达式库派生的，后者后来为Tcl编写了高级正则表达式的实现。
Tcl库是具有改进的性能特征的NFA / DFA混合实现。采用Spencer Tcl正则表达式实现的软件项目包括PostgreSQL。 Perl随后扩展了Spencer的原始库，以添加许多新功能。 
Perl 6设计的部分工作是改善Perl的正则表达式集成，并增加其范围和功能，以允许定义解析表达式语法。结果是一种称为Perl 6规则的迷你语言，该规则用于定义Perl 6语法并为使用该语言的程序员提供工具。
这些规则保留了Perl 5.x正则表达式的现有功能，但也允许通过子规则以BNF样式定义递归下降解析器。
正则表达式在结构化信息标准中用于文档和数据库建模的使用始于1960年代，并在1980年代得到扩展，当时，诸如ISO SGML（由ANSI“ GCA 101-1983”取代）的行业标准得到了巩固。结构规范语言标准的内核由正则表达式组成。它的使用在DTD元素组语法中很明显。

Philip Hazel从1997年开始开发了PCRE（与Perl兼容的正则表达式），它试图紧密模仿Perl的正则表达式功能，并被许多现代工具所使用，包括PHP和Apache HTTP Server。
如今，正则表达式在编程语言，文本处理程序（尤其是词法分析器），高级文本编辑器和其他一些程序中得到广泛支持。
正则表达式支持是许多编程语言（包括Java和Python）的标准库的一部分，并内置于其他语言（包括Perl和ECMAScript）的语法中。正则表达式功能的实现通常称为正则表达式引擎，许多库可供重用。

几个关键字：

1.1951

2.Stephen Cole Kleene（数学家），汉译：史蒂芬.科尔.克莱尼

ken Thompson ,汉译肯.汤普生

3.posix

4.perl

5.PCRE,apacheHttp server

正则表达式有一个共有的根，但是有两套小的规则：基于Posix和基于perl的。从前文可以看出perl的实现更加的丰富。

从javadoc看，java是NFA-based实现的，但和perl5相差无几，是基于肯.汤普生的。

关于正则的引擎一些内容，可以参见博客：http://www.cppblog.com/airtrack/archive/2014/09/15/208319.html

该博主应该是非常深入和专业地解释了有关正则的有关内容。

这里抄录一些：

正则引擎常见的实现方法

正则的常见实现方式有三种：DFA、Backtracking、NFA：
    DFA是三种实现中效率最高的，不过缺点也明显，一是DFA的构造复杂耗时，二是DFA支持的正则语法有限。
    在早期正则被发明出来时，只有concatenation、alternation、Kleene star，即"ab" "a|b" "a*"，DFA可以轻松搞定。
    随着计算机的发展，正则像所有其它语言一样发展出各种新的语法，很多语法在DFA中难以实现，比如capture、backreference（capture倒是有论文描述可以在DFA中实现）。
    Backtracking是三种实现中效率最低的，功能确是最强的，它可以实现所有后面新加的语法，因此，大多数正则引擎实现都采用此方法。因为它是回溯的，所以在某些情况下会出现指数复杂度，这篇文章有详细的描述。
    NFA(Thompson NFA)有相对DFA来说的构造简单，并兼有接近DFA的效率，并且在面对Backtracking出现指数复杂度时的正则表达式保持良好的性能。

小结：

1.1951 史蒂芬.科尔.克莱尼

2.两个体系 posix,perl

3.三个实现：DFA,backtracking(回溯),NFA

其中

DFA:Deterministic Finite State Automata 确定的有穷自动机

NFA:Non-Deeterministic Finite State Automata 无确定的有穷自动机

四、规则介绍和java的实现说明

本章节有选择地翻译自javaDoc(jdk17)，包含了大部分的内容，舍弃了和规则介绍无关的一些内容。

j事实上从jdk1.8到jdk17，java好像没有改变NFA的实现--没有增加新的语法或者是优化了算法（这些是个人臆测，从javadoc内容猜测)

4.1 基本的正则表达式结构类

在javaDoc中使用了construct，这里应该是结构（结构体，构件）的意思。

javaDoc把后文表格中列出的表达式称为结构（组件）,大体分为几个：

字符识别

a.字符--表达特定的单个字符

b.字符类-表达一类字符，必须和符号[]，^,-,&&一起使用。

【】--集合

^-不含

&& 且

- 到

c.预定义字符类-表达一类的字符，但这是为了方便而预先定义的。不表示具体某个字符,例如 \d表示阿拉伯数字[0-9]

d.POSIX字符类（US-ASCII），以\p{}表示格式，功效上和预定义字符类差不多，就是为了方便

e.java.lang.Character 类，非常特别的一类，java特有的。格式为 \p{}

f.统一脚本，块，分类和二进制属性.格式为格式为 \p{}

以上a-f类是用于识别字符

边界

某种程度上类似预定义类，用于表示输入边界，匹配边界。其中关于字符边界（范围）是比较特殊的，似乎不是一类

贪心限定

表示匹配的个数。例如*,?

保守限定

基本同贪心限定，或者等同于贪心限定后更上一个?。不清楚有什么实际区别

占有限定

基本同贪心限定，或者等同于贪心限定后更上一个+。不清楚有什么实际区别

逻辑操作符

用于在一个表达式中实现多个匹配。具体有三种：跟随（没有符号）；|（或者);（）定义分组

回溯符/向后符

定义已经匹配的内容。非常常用的是\n.

引用

对已经捕获的分组的引用。允许通过名称或者捕获的顺序进行匹配

特别的结构（命名捕获和非捕获）

4.2 JAVA正则结构类明细表

表：java支持的结构类明细

分类	表达式	英文	中文	说明
字符	x		字符x	x是一个符号，具体写的时候，应该是如 a,b,c,1,2,3，中之类的
字符	\\		反斜杆
字符	\0n		八进制数	n介于[0,7]
字符	\0nn		八进制数	n介于[0,7]
字符	\0mnn		八进制数	m介于[0,3] n介于[0-7]
字符	\xhh		16进制数	表示0xhh
字符	\uhhhh		16进制数	表示0xhhhh
字符	\x{h...h}		16进制数	表示0xh..h 值介于[0,`10FFFF`]
字符	\N{name}		统一码	表示名称为'name'的统一码
字符	\t		tab	对应\u0009
字符	\n		换行符	对应\u000A
字符	\r		回车符	对应\u000D
字符	\f		进表符/换页符	对应\u000C
字符	\a		响铃符	对应\u0007
字符	\e		逃逸符	对应\u001B
字符	\cx		控制符x	x是控制符，写的时候需要具体化。例如\cC
字符类	[abc]		简单类	分组符号[]中的每个元素都是一个具体的字符，也就是说abc可以是仁义字符，个数也可以是任意的重点：【】
字符类	[^abc]		简单类的非集	即不包含abc这几个字符重点：^
字符类	[a-zA-Z]		包含多个类型的分类	意思是在一个集合符号[]内，可以有多种类型的字符，而且同一种字符之间可以使用横杆来表示开始和结束的范围。注意，这可以多个类型。例如实际可以这样： [a-L0-9] 重点:-
字符类	[a-d[m-p]]		并集分类	等同于包含多个类型的分类：[a-dm-p] 重点：仅仅为了方便
字符类	[a-z&&[def]]		交集分类	本例等同于[def] 重点: &&
字符类	[a-z&&[^bc]] [a-z&&[&m-p]]		&& ,^,-的运算	即[]，-，&&可以有多重关系
预定义字符类	.		任意字符	. 任意字符 \d 数字，d是digital的首字母 \D 非数字，等同于[^0-9] \h 水平空格字符 `[ \t\xA0\u1680\u180e\u2000-\u200a\u202f\u205f\u3000]` \H 非水平空格字符,等同于[^h] \s 空格字符：[\t\n\x0B\f\r] \S 非空格字符 \v 垂直空格字符 `[\n\x0B\f\r\x85\u2028\u2029]` \V 非垂直空格字符 \w 单字字符：[a-zA-Z_0-9] \W:非单字字符[^w]
posix 字符类				\p{Lower}} A lower-case alphabetic character: [a-z] 小写字母 \p{Upper}} An upper-case alphabetic character:[A-Z] 答谢字母 \p{ASCII}} All ASCII:[\x00-\x7F] ASCII字符 \p{Alpha}} An alphabetic character: [\p{Lower}\p{Upper}]} 字母，函大小写=[a-zA-Z] \p{Digit}} A decimal digit: [0-9] 数字 \p{Alnum}} An alphanumeric character: [\p{Alpha}\p{Digit}]} 字母和数字 \p{Punct}} Punctuation: One of !"#$%&'()*+,-./:;<=>?@[\]^_`{\|}~} 标点符号 \p{Graph}} A visible character: [\p{Alnum}\p{Punct}]} 可见字符=字母+数字+标点符号 \p{Print}} A printable character: [\p{Graph}\x20]} 打印字符 \p{Blank}} A space or a tab: [ \t] 空或者tab \p{Cntrl}} A control character: [\x00-\x1F\x7F] 控制字符 \p{XDigit}} A hexadecimal digit: [0-9a-fA-F] 16进制有关字符=数字+[a-fA-F] \p{Space}} A whitespace character: [ \t\n\x0B\f\r] 空格
java.lang.Character类				\p{javaLowerCase}} Equivalent to java.lang.Character.isLowerCase() 、 \p{javaUpperCase}} Equivalent to java.lang.Character.isUpperCase() \p{javaWhitespace}} Equivalent to java.lang.Character.isWhitespace() \p{javaMirrored}} Equivalent to java.lang.Character.isMirrored()
统一脚本，块，分类和二进制属性				\p{IsLatin}} A Latin script character (script) 拉丁字符 \p{InGreek}} A character in the Greek block (block) 希腊字符 \p{Lu}} An uppercase letter (category) 大写字 \p{IsAlphabetic}} An alphabetic character (binary property) 字母字符 \p{Sc}} A currency symbol 货币符号 \P{InGreek}} Any character except one in the Greek block (negation) 非希腊字符？ [\p{L}&&[^\p{Lu}]]} Any letter except an uppercase letter (subtraction) 非大写字符？
边界类（重点）	^			行开始，或者表示以什么开始。用的时候是后面更上其它结构
边界类（重点）	$			行结尾。用的时候，是前面跟上其它结构
边界类（重点）	\b			等同于\w ,这个需要确定
边界类（重点）	\b{g}}			统一符+其它字素？
边界类（重点）	\B			等同于[^\w]
边界类（重点）	\G			前一个匹配之后。之后的什么？
边界类（重点）	\Z			输入的最后一个终止符 ?
边界类（重点）	\z			输入结尾
贪心限定（重点）				? 一个或者没有 <=1 * 没有或者多个 >=0 + 至少一个 >1 {n} n个 {n,} 至少n个 {n,m} 个数介于[n,m]之间
保守限定				注：是在贪心限定之后跟上一个? .含义是一样的，不知道这是什么意思
占有限定				注：是在贪心限定之后跟上一个+.含义是一样的，不知道这是什么意思
逻辑操作符号			跟随	例如 ab. 注意在集合符号[]内“跟随”不生效，例如[ax],并不是说a后面跟着x，而是包含a或者x
逻辑操作符号	\|		或者	这个容易理解。常常用于一次要匹配多种情况的表达式中
逻辑操作符号	()		分组	如何为分组命名? (?<name>X) 其中这个X就是分组内的规则（结构)
回溯符/向后引用	\n		匹配到第n个组	n>=1
	\k<name>		按名字查找匹配的分组
特别结构类（命名和不合法捕获?)	(?<name>X)		为分组命名	X是分组内的规则，例如 (?<char>[a-z])
	`(?:`X`)`		无效分组	所有其它无效捕获的分组？（non-capturing -- 无效/不合法捕获）。注意，non不是none(没有）表示“(?:X)“这个是不能有的分组，必须排除的。有时候，可能使用^还不够方便，还要对分组排除，这样更方便，所有有这么一个东西。 a(?:\d)b 可以匹配abc,不能匹配a1b,因为a的右边不能有数字
	`(?=`X`)`		右边是（相对某个)	X, via zero-width positive lookahead lookahead --向前看，即根据从左向右的查看和输入(验证时候字符的输入顺序)规则，向前即向右边看。但这里隐藏了一个很重要的东西：相对于什么。所以这个构件前如有有其它构件，那么意思就是前面一个构件之后必须是这个分组。后文的lookbehind，和lookahead是相反的意思，也有类似的隐藏条件：相对于什么向后（左边)。 *= 表示满足条件，但不捕获（find）* *! 表示不满足，但捕获(find)* 下同
	`(?!`X`)`		右边不是（相对某个)	X, via zero-width negative lookahead 基本同?=x,不过意思是某个构件后不能有这个分组
	`(?<=`X`)`		左边是（相对某个)	X, via zero-width positive lookbehind 基本同?=x,不过多了一个<,意思是后面(相对于某个构件，其左边)的构件是x
	`(?<!`X`)`		左边不是（相对某个)	X, via zero-width negative lookbehind 基本同?！x,不过多了一个<,意思是后面(相对于某个构件，其左边)的构件不是x
	`(?>`X`)`			X, as an independent, non-capturing group

注：上表没有列出所有的结构信息，部分比较奇特的没有包含在内。

关于特别构件/机构类，可以参见 https://blog.csdn.net/ZHOUBANGDING/article/details/54378373

javadoc存心想让人看不明白！

五、重点要掌握什么

正则表达式的规则总体来说还是有限，但限于文档，许多规则无法通过一篇文章说清楚。

许多时候，我们需要通过测试用例来验证表达式的正确性，这也是为什么有许多正则表达式工具的原因。

而我们学习（数量掌握）的目的并不是为了仅仅掌握如何用这些工具，而是为了提高我们的效率：可以在大部分情况下很好滴写出需要的表达式。

1.基本符号含义

这些符号包括：

[ ] -- 集合符号
- --连接符号，和其它两个字符一起表示一个字符范围
^ --不包含或者是从行头开始
&& -- 集合运算符且，不是逻辑运算符号
| -- 逻辑操作符号，表示只要匹配的时候，满足其中一种情况即可
* -- 匹配个数：>=0
? -- 匹配一个或者其它用途（有点多）
+ -- 匹配个数：>=1
（） -- 分组符号

2.转义符（escape)

如果正则表达式中要表示匹配特殊的字符，例如+-，怎么办？和大部分语言一样:在字符前面添加一个反斜杠\。例如 \-,\+分别表示匹配-+。

3.特别字符的表示

\n,\r表示换行，还有其它一些，具体查前表。

4.分组

在perl规则中，分组非常好用。

为什么要分组？因为我们希望对匹配的内容进行再处理，最好的方式是对目标对象进行分组。

举个简单的例子，我们希望查找文本中所有字母开头后跟数字的词语，并把所有的首字母转成小写，那么可以这样写正则表达式:

([a-z])([a-z0-9_]+)

当我们找到后，就可以对分组1进行操作。

5.逻辑操作 | &&

6.不同结构之间的关系

什么分类之间可以互相组合？什么分类可以互相包含？

a.结构和结构之间不是可以任意组合的

b.有的结构可以包含其它结构，有的不行

c.理解向后引用，包括怎么算分组序号，怎么使用。能够有效利用向后引用，可以实现一些复杂的查找

只要记住几条主要的注意事项即可：

a. 集合符号[] 内部可以是简单的字符、预定义类等大部分其他类构件。

例如可以写 [a-z] [\w]

b.虽然java的是基于NFA的，且基本等同于与per 5的实现，但是还有一些perl的语法不支持，如下（源于javadoc):

1) 向后引用构件 \g{n}

2)条件构件(?(condition)x)

3)内嵌代码构件 (?{code}) and (??{code}),

4)内嵌注释构建(?#comment),

5)预处理操作：\l \u, \L, and \U.

从个人来看，和perl的最大区别就在于对于向后引用的支持不如perl那么方便，当然也有好的一面。

六、例子

6.1Pattern的函数实现查找和替换appendReplacement等

javadoc例子

    /**
     * 测试find和appendReplacement
     * 持续查找某个模式，并替换为指定内容  appendReplacement
     */
    public void contineFindP_and_replace(String functionName) {
        printHeader(functionName);
        Pattern p = Pattern.compile("\\$\\{[a-z0-9]+\\}");
        Matcher m = p.matcher("one ${cat} ${two} cats in the yard");
        StringBuffer sb = new StringBuffer();
        while (m.find()) {
            m.appendReplacement(sb, "dog");
        }
        m.appendTail(sb);
        System.out.println(sb.toString());
        //注意以上代码等同于 m.replaceAll("dog");
    }

输出如下：

---contineFindP_and_replace---------------------------------
one dog dog cats in the yard

6.2Pattern的函数全替换replaceAll

/**
     * 利用replaceAll函数直接替换为某个常量
     * @param functionName
     */
    public void replaceAllByMather(String functionName) {
        printHeader(functionName);
        Pattern p = Pattern.compile("\\$\\{\\D[a-z0-9\\_]*\\}"); // 可以找到2个
        Matcher m = p.matcher("one ${c_13a6t} ${t3455_5w_o} cats in the yard");
        String result = m.replaceAll("桃子");
        System.out.println(result);
    }

---replaceAll-----------------------------------------------
one 桃子桃子 cats in the yard

6.3Pattern的函数实现切割split

    /**
     * 测试正则的其它函数-- Pattern的其它方法
     */
    public void testOhterFunction(String functionName) {
        printHeader(functionName);
        //匹配 前后同一个字符中间两个字符的串，如 ecce,abba 
        String txt="luck and face ecce xccx pin";
        String regExp="([a-z])\\1";
        Pattern p = Pattern.compile(regExp);
        System.out.println("\""+txt+"\" found:");
        //可以基于一个正则进行切割
        String[] arr=p.split(txt);
        int no=0;
        for(String part:arr) {
            no++;
            System.out.println(no+":"+part);
        }
        
        //把a变成 \Qa\E
        System.out.println(Pattern.quote("a"));
        
        String txt1="SSS \\Qa\\E ";
        String regExp1="\\Q[a-z]+\\E";   //p右边有数字的不要
        Pattern p1 = Pattern.compile(regExp1);
        Matcher m1 = p1.matcher(txt1);
        while (m1.find()) {
            String found = m1.group();
            System.out.println(txt1+" found（"+regExp1+"）:" +m1.groupCount() +":" + found);
        }
    }

---Pattern其它函数----------------------------------------------
"luck and face ecce xccx pin" found:
1:luck and face e
2:e x
3:x pin
\Qa\E

6.4预定义字符类

    /**
     * 测试预定义类
     */
    public void testPredefineClassAndCollection(String functionName) {
        printHeader(functionName);
        String txt="$-- this is good  gs83883sdsd 99♡99 99 88♡♡88"
                + "$-- s";
        String regExp=
                "(^\\$[\\-]*)|"                //以$开头，后跟--
                + "([\\w]+[\\d]+[\\w]+)|"      //中间数字，两边字母
                + "\s*s$|"                     //以s结尾的
                + "[\\d]{2,}[♡]?+[\\d]{2,}";   //左右必须各有至少2各个或者2个以上字母，中间有一个♡或者没有♡，
        Pattern p = Pattern.compile(regExp);
        Matcher m = p.matcher(txt);
        while (m.find()) {
            String found = m.group();
            System.out.println("found:" + found);
        }
    }

---预定义字符类---------------------------------------------------
found:$--
found:gs83883sdsd
found:99♡99
found: s

6.5回溯/向后引用

    /**
     * 测试向后引用 \n，可用于测试左右对称的情况
     */
    public  void testBackReference(String functionName) {
        printHeader(functionName);
        //匹配 前后同一个字符中间两个字符的串，如 ecce,abba 
        String txt="aa bb cc dd abab ecce xccx";
        String regExp="([a-z])([a-z])\\2\\1";
        Pattern p = Pattern.compile(regExp);
        Matcher m = p.matcher(txt);
        while (m.find()) {
            String found = m.group();
            System.out.println("found:" + found);
        }
    }

---回溯-------------------------------------------------------
found:ecce
found:xccx

6.6特殊构件--绕口令

不好记，需要的时候翻看下。

/**
     * 测试一些特别的构件--即奇怪部分: 无效捕获，瞻前/向前看，顾后/向后看
     * ! 不满足，但会捕获
     * = 满足，但不捕获   
     */
    public void testSpecialConstruct(String functionName) {
        printHeader(functionName);
        //!，没有的要
        String txt=" p0nd pnd  z0nd znd";
        String regExp=
                  "p(?!\\d+)nd|"   //p右边没有数字的要捕获(found)
                + "z(?<!\\d+)nd";  //n左边没有数字的要捕获
        Pattern p = Pattern.compile(regExp);
        Matcher m = p.matcher(txt);
        while (m.find()) {
            String found = m.group();
            System.out.println("found:" + found);
        }
        
        //=,有的不要
        String txt1=" xp0 xp ";
        String regExp1="xp(?=0)";   //p右边有数字的不要
        Pattern p1 = Pattern.compile(regExp1);
        Matcher m1 = p1.matcher(txt1);
        while (m1.find()) {
            String found = m1.group();
            System.out.println(txt1+" found（"+regExp1+"）:" +m1.groupCount() +":" + found);
        }
        
        //<=,有的不要
        String txt2=" 0xp xp ";
        String regExp2="(?<=0)xp";   //xp左边有数字的不要        
        Pattern p2 = Pattern.compile(regExp2);
        Matcher m2 = p2.matcher(txt2);
        while (m2.find()) {
            String found = m2.group();
            System.out.println(txt2+" found（"+regExp2+"）:" +m2.groupCount() +":" + found);
        }
        
        //>,有的要，和方向没有关系
        String txt3=" 0xp xp  xp0";
        String regExp3="(?>0)xp|xp(?>0)";   //有0的要
        Pattern p3 = Pattern.compile(regExp3);
        Matcher m3 = p3.matcher(txt3);
        while (m3.find()) {
            String found = m3.group();
            System.out.println(txt3+" found（"+regExp3+"）:" +m3.groupCount() +":" + found);
        }
    }

---特殊构件-----------------------------------------------------
found:pnd
found:znd
xp0 xp found（xp(?=0)）:0:xp
0xp xp found（(?<=0)xp）:0:xp
0xp xp xp0 found（(?>0)xp|xp(?>0)）:0:0xp
0xp xp xp0 found（(?>0)xp|xp(?>0)）:0:xp0

6.7匹配中文

    /**
     * 测试匹配汉字
     * 需要注意的是</br>
     * 1.java代码常常是UTF8格式保存的</br>
     * 2.UTF-16编码不同于utf8编码。前者两个字节表示一个汉字，后者是3个字节表示一个汉字</br>
     * @throws UnsupportedEncodingException 
     */
    public  void testMatchChinese(String functionName) throws UnsupportedEncodingException{
        printHeader(functionName);
        //匹配UTF8的汉字
        String txt="aa 卢 cc 中 aba不要瞻前顾后";
        String regExp="[\\u4e00-\\u9fa5]";
        Pattern p = Pattern.compile(regExp);
        Pattern.compile(regExp, 0);
        Matcher m = p.matcher(txt);
        while (m.find()) {
            String found = m.group();
            System.out.println("found:" + found);
        }
        //匹配UNICODE汉字(utf-16)
        String txtUnicode=new String(txt.getBytes("UTF-16"),"UTF-16"); 
        regExp="[\\u4e00-\\u9fa5]";
        Pattern p1 = Pattern.compile(regExp);
        Matcher m1 = p1.matcher(txtUnicode);
        while (m1.find()) {
            String found = m1.group();
            System.out.println("found:" + found);
        }
    }

---匹配中文-----------------------------------------------------
found:卢
found:中
found:不
found:要
found:瞻
found:前
found:顾
found:后
found:卢
found:中
found:不
found:要
found:瞻
found:前
found:顾
found:后

这说明，java自己会处理变编码。

不过以上仅仅是常规的汉字。

6.8解析函数表达式

来一些复杂的例子！

有的时候，我们需要在业务中允许使用自定义的函数，而且函数是带有不定参数的。

/**
     * 测试稍微复杂的函数表达式以及逻辑操作符号|</br>
     * 一个函数的参数列表，用逗号分割。</br>
     * 分割的主要依据是逗号必须不是被双引号所包围的。 例如 1,",ssd",good 只能分割为
     * 1和",ssd",good.
     */
    public void testFunAndParam(String functionName) {
        printHeader(functionName);
        /**
         * 5个分组 组: 1-函数名称 2-参数和括弧 3-做括弧 4-参数 5-右括弧
         */
        String patternStr = 
                 "(f_[a-z0-9\\_]*)"
                +"("
                    +"(\\()"
                    +"(([0-9\\.\\-]*)(\\,)*(\"[^\"\\,]*\")*(\"[^\"]*\\,[^\"]*\")*(\\$\\{[a-z][0-9a-z_]*[0-9a-z_&&[^_]]\\})*)*"
                    +"(\\))"
                +")";
        Pattern p = Pattern.compile(patternStr);
        Matcher m = p.matcher("one f_gogo f_sd33_33_nb_ f_cal(1,\"abc\"),3)," 
                + "f_do(\"adfb\",\"dfdf\",\"sss\",12.4) "
                + "f_avg(1,2) f_cat(\"a\",\"c\")  " 
                + "f_ceil(12,${sddd_ee}) "
                + "f_ggg(\"abcde1,3f\") cats in the yard");

        while (m.find()) {
            String found = m.group();
            System.out.println("found:" + found);
            for (int i = 1, len = m.groupCount(); i <= len; i++) { //打印每个参数
                System.out.println(i + ":  " + m.group(i));
            }
        }
    }

---函数表达式----------------------------------------------------
found:f_cal(1,"abc")
1: f_cal
2: (1,"abc")
3: (
4:
5:
6: ,
7: "abc"
8: null
9: null
10: )
found:f_do("adfb","dfdf","sss",12.4)
1: f_do
2: ("adfb","dfdf","sss",12.4)
3: (
4:
5:
6: ,
7: "sss"
8: null
9: null
10: )

注：内容太长，只列出部分结果。

6.9解释函数参数列表

/**
     * 测试分析函数表达式中参数表达式部分，并打印每个参数
     */
    public void testSplitParamExp(String functionName) {
        printHeader(functionName);
        /**
         * 参数表达式以逗号分割
         * 
         */
        String[] expList = { 
                "\"a\",12,0",
                "\"a\"",
                "\"a\",\"c\"", 
                "1,2,3,4.0,5.0,0.34",
                "1,2,-3,4.0,-5.0,0.34",
                "1,\"ab,c\"",
                "1,\"abc\",\"我们,大家都考60.0分以上\"",
                "1,\"abc\",33333,${go_sd},${veee_384},12.99" };
        String patternStr = 
                  "[0-9\\.\\-]+|" //数字
                + "\"[^\"\\,]*\"|"    //字符串
                + "\"[^\"]*\\,[^\"]*\"|" //字符串中带有逗号的
                + "\\$\\{\\D[a-z0-9\\_]*[^_]\\}"; //其它ETL参数
        Pattern p = Pattern.compile(patternStr);
        for (int i = 0, len = expList.length; i < len; i++) {
            String exp = expList[i];
            System.out.println("---------------------------------------");
            System.out.println(exp);
            System.out.println("---------------------------------------");
            Matcher m = p.matcher(expList[i]);
            while (m.find()) {
                String found = m.group();
                System.out.println("found:" + found);
            }
            System.out.println("");
        }

    }

---函数参数表达式--------------------------------------------------
---------------------------------------
"a",12,0
---------------------------------------
found:"a"
found:12
found:0

---------------------------------------
"a"
---------------------------------------
found:"a"

---------------------------------------
"a","c"
---------------------------------------
found:"a"
found:"c"

---------------------------------------
1,2,3,4.0,5.0,0.34
---------------------------------------
found:1
found:2
found:3
found:4.0
found:5.0
found:0.34

---------------------------------------
1,2,-3,4.0,-5.0,0.34
---------------------------------------
found:1
found:2
found:-3
found:4.0
found:-5.0
found:0.34

---------------------------------------
1,"ab,c"
---------------------------------------
found:1
found:"ab,c"

---------------------------------------
1,"abc","我们,大家都考60.0分以上"
---------------------------------------
found:1
found:"abc"
found:"我们,大家都考60.0分以上"

---------------------------------------
1,"abc",33333,${go_sd},${veee_384},12.99
---------------------------------------
found:1
found:"abc"
found:33333
found:${go_sd}
found:${veee_384}
found:12.99

七、小结

1.正则表达式这个东西，简单的也很简单，复杂的也有，例如特殊的构件

2.java自身提供的函数基本能满足要求，不过方便性不够。例如回溯引用的替换并不是那么方便，虽然可以做到。

3.要完整掌握，多少还是需要了解来龙去脉

4.需要较多的练习，才能熟练

posted @ 2022-12-01 21:59 正在战斗中阅读(578) 评论(0) 收藏举报

刷新页面返回顶部