铁蹄羊

导航

多行匹配.+表示分组的错误

今天在Java中想使用正则表达式来获取一段文本中的任意字符。于是很随意得就写出如下匹配规则:
(.*)
结果运行之后才发现,无法获得换行之后的文本。于是查了一下手册,才发现正则表达式中,“.”(点符号)匹配的是除了换行符“\n”以外的所有字符。同时,手册上还有一句话:要匹配包括 '\n' 在内的任何字符,请使用像 '[.\n]' 的模式。于是我将正则表达式的匹配规则修改如下:
([.\n]*),当然,如果是在java程序中直接写到话,需要改为([.\\n]*)
结果再次运行程序,发现什么内容也取不到了。我百思不得其解,又将其修改为如下规则:
([.|\n]*) 以及 ([\n.]*)
结果还是不行,什么内容都取不到。看来点符号和换行符卯上劲了~
然后上网一查,虽然没有查出上述规则到底是什么地方出问题了,但是查出了一个解决办法,经过一试,果然可以匹配包括换行符在内的任意字符,以下为正确的正则表达式匹配规则:
([\s\S]*)
同时,也可以用 “([\d\D]*)”、“([\w\W]*)” 来表示。


在文本文件里, 这个表达式可以匹配所有的英文
/[ -~]/
这个表达式可以匹配所有的非英文(比如中文)
/[^ -~]/
/是VI里用的. 你在editplus或程序里不需要/ 

 

----------------以上转自脚本之家----------------

106 sadasd s da s || 10101010
107
108 asde31d12e21
109 e12e12e312r
110 412r
111 1
112 24r4rt4rtf2rt2r24
113 r4
114
115 ########################

要匹配以上这一段固定格式并获取第10编号的内容,正则如下:

\|\|\s\d+([.\n]+)\#{24,}

或者

\|\|\s\d+([\s\S]+)\#{24,}

或者

\|\|\s\d+([\w\W]+)\#{24,}

或者

\|\|\s\d+([.]+)\#{24,} 并启动Dot-all模式,在python中就是把re.match的flag参数加上re.S;在其他平台如cavium hfa中就在开始加上{s}

但是python的re.match是从头开始匹配的额,需加.*;re.search则可以直接使用;

print(matchobj.group(1))即是107line-114line的内容

 ------------------------------------------------

 

posted on 2017-09-19 10:23  铁蹄羊  阅读(158)  评论(0)    收藏  举报