正则表达式
正则表达式,英文全称:Regular Expression。
它是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串搜索模式。
主要用来搜索和替换文本。它也是一种对象。
我们在介绍字符串方法的时候,提到过正则表达式。先来复习一下,都是有哪些字符串方法支持正则表达式。
search(regexp):检索与正则表达式相匹配的值。match(searchvalue/regexp):找到一个或多个正则表达式的匹配。replace(regexp/substr,replacement):替换与正则表达式匹配的子串。split(separator/regexp,howmany):把字符串分割为字符串数组。
这些方法不熟悉的,可以看JS字符串常用方法和属性那篇文章的讲解。
为什么要用正则表达式?
用正则表达式,是为了让我们能够更方便、更灵活的搜索和替换文本。
如果说,之前我们用字符串搜索文本是精准查询的话,用正则表达式查询就是模糊查询,它的搜索范围可以更广。
正则表达式语法:
/模式/修饰符(可选)
模式可以是一个简单的字符,也可以是很复杂的规则。
修饰符是用来修饰模式的,起到辅助的作用。它有三个值:i、g、m。这三个值都是小写的。
i:不区分大小写;g:全局匹配(查找所有匹配而非在找到第一个匹配后停止);m:多行匹配;
三个值可以同时使用,顺序不分先后。
写个小例子:
var str = "Hello liuxiaoniu";
var pat1 = /hello/;
var pat2 = /hello/i;
document.write(str.match(pat1)); //输出null
document.write(str.match(pat2)); //输出Hello
- 1
- 2
- 3
- 4
- 5
模式可以分为三类:方括号、元字符、量词。
方括号用于查找某个范围内的字符:
[abc]:查找方括号之间的任何字符。[^abc]:查找任何不在方括号之间的字符。[0-9]:查找任何从 0 至 9 的数字。[a-z]:查找任何从小写 a 到小写 z 的字符。[A-Z]:查找任何从大写 A 到大写 Z 的字符。[A-z]:查找任何从大写 A 到小写 z 的字符。[adgk]:查找给定集合内的任何字符。[^adgk]:查找给定集合外的任何字符。(red|blue|green):查找任何指定的选项。
元字符(Metacharacter)是拥有特殊含义的字符:
.:查找单个字符,除了换行和行结束符。\w:查找单词字符。\W:查找非单词字符。\d:查找数字。\D:查找非数字字符。\s:查找空白字符。\S:查找非空白字符。\b:匹配单词边界。\B:匹配非单词边界。\0:查找 NULL 字符。\n:查找换行符。\f:查找换页符。\r:查找回车符。\t:查找制表符。\v:查找垂直制表符。\xxx:查找以八进制数 xxx 规定的字符。\xdd:查找以十六进制数 dd 规定的字符。\uxxxx:查找以十六进制数 xxxx 规定的 Unicode 字符。
量词是和有无多少相关的
n+:匹配任何包含至少一个 n 的字符串。
例如: /a+/ 匹配 “candy” 中的 “a”,“caaaaaaandy” 中所有的 “a”。
n*:匹配任何包含零个或多个 n 的字符串。
例如: /bo*/ 匹配 “A ghost booooed” 中的 “boooo”,“A bird warbled” 中的 “b”,但是不匹配 “A goat grunted”。
·n?·:匹配任何包含零个或一个 n 的字符串。
例如:/e?le?/ 匹配 “angel” 中的 “el”,“angle” 中的 “le”。
n{X}:匹配包含 X 个 n 的序列的字符串。
例如,/a{2}/ 不匹配 “candy,” 中的 “a”,但是匹配 “caandy,” 中的两个 “a”,且匹配 “caaandy.” 中的前两个 “a”。
n{X,}:X 是一个正整数。前面的模式 n 连续出现至少 X 次时匹配。
例如,/a{2,}/ 不匹配 “candy” 中的 “a”,但是匹配 “caandy” 和 “caaaaaaandy.” 中所有的 “a”。
n{X,Y}:X 和 Y 为正整数。前面的模式 n 连续出现至少 X 次,至多 Y 次时匹配。
例如,/a{1,3}/ 不匹配 “cndy”,匹配 “candy,” 中的 “a”,“caandy,” 中的两个 “a”,匹配 “caaaaaaandy” 中的前面三个 “a”。注意,当匹配 “caaaaaaandy” 时,即使原始字符串拥有更多的 “a”,匹配项也是 “aaa”。
n$:匹配任何结尾为 n 的字符串。^n:匹配任何开头为 n 的字符串。?=n:匹配任何其后紧接指定字符串 n 的字符串。?!n:匹配任何其后没有紧接指定字符串 n 的字符串。
- 正则表达式方法
exec(string):检索字符串中指定的值,如果字符串中有匹配的值返回该匹配值,否则返回 null。test(string):检索字符串中指定的值。返回 true 或 false。
exec和test都是检索到第一个符合条件值就会停止。exec如果有匹配的值,可以通过访问返回值的index属性得到匹配值的位置。
toString():返回正则表达式的字符串。
- 正则表达式属性
global:判断是否设置了 “g” 修饰符ignoreCase:判断是否设置了 “i” 修饰符multiline:判断是否设置了 “m” 修饰符lastIndex:用于规定下次匹配的起始位置,该属性只有设置标志 g 才能使用。
通过下面的例子,可以更清楚lastIndex的用法:
var str="The rain in Spain stays mainly in the plain";
var patt1=/ain/g;
while (patt1.test(str)==true)
{
document.write("'ain' found. Index now at: "+patt1.lastIndex);
document.write("<br>");
}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 一些常用的正则表达式
数字:^[0-9]*$
n位的数字:^\d{n}$
至少n位的数字:^\d{n,}$
m-n位的数字:^\d{m,n}$
有两位小数的正实数:^[0-9]+(.[0-9]{2})?$
汉字:^[\u4e00-\u9fa5]{0,}$
英文和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
长度为3-20的所有字符:^.{3,20}$
由26个英文字母组成的字符串:^[A-Za-z]+$
由26个大写英文字母组成的字符串:^[A-Z]+$
由26个小写英文字母组成的字符串:^[a-z]+$
由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$
由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$
中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$
中文、英文、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)
