爬虫必备正则re模块

re模块

*正则表达式
1、 . 匹配除换行符以外的任意字符
2、 \w 匹配 数字 字母下划线 \W 匹配非数字、字母、下划线

3、 \s 匹配任意的空白符 \S 匹配非空白符

4、 \d 匹配数字 \D 匹配非数字
5、 \n 匹配一个换行符

6、 \t 匹配一个制表符

7、 ^ 匹配字符串的开始
8、 $ 匹配字符串的结尾
9、 a|b 匹配字符a或者字符b
10、 () 匹配括号内的表达式,也表示一个组
11、 [...] 匹配字符组中的字符
12、 [ ^. . .] 匹配除了字符组中的所有字符

 

量词:控制前面的元字符出现的次数

1、 * 0次或者更多次

2、 + 重复一次或者更多次

3、 ? 重复0次或者一次

4 、 {n} 重复n次

5、 {n,} 重复n次或者更多次

6、 {n,m} 重复n次到m次

 

* 贪婪匹配和惰性匹配

1、 .* 尽可能多的匹配

2、 .*? 尽可能少的匹配字符

(这两个是写爬虫非常需要用到的)

 

posted @ 2021-06-07 17:03  测试小能手1  阅读(67)  评论(0)    收藏  举报