【正则表达式】

三种解析方式
1、re解析（正则表达式）
2、bs4解析
3、xpath解析

正则表达式
Regular Expression，一种使用表达式的方式对字符串进行匹配的语法规则
优点：速度快，效率高，准确性高
缺点：难度高

正则语法：使用元字符进行排列组合用来匹配字字符串，在线测试正则表达式：https://tool.oschina.net/regex/
元字符：具有固定含义的特殊字符
常用元字符：
.   匹配除换行符以外的任何字符
\w  匹配字母、数字或者下划线
\s  匹配任意的空白字符
\d  匹配数字
\n  匹配一个换行符
\t  匹配一个制表符

^   匹配字符串的开始
$   匹配字符串的结尾

\W  匹配非字母或下划线
\D  匹配非数字
\S  匹配非空白符
a|b 匹配字符a或者b
()  匹配括号内的表达式，也表示一个组
[...]   匹配字符组中的字符
[^...]  匹配除了字符组中字符的所有字符

量词：
（控制前面元字符出现的次数）
*   重复0次或更多次
+   重复1次或更多次
?   重复0次或一次
{n} 重复n次
{n.}    重复n次或更多次
{n,m}   重复n到m次

贪婪匹配和惰性匹配
.*  贪婪匹配
.*? 惰性匹配

写爬虫用的最多的就是惰性匹配
posted @ 2022-05-15 10:20 hanyr 阅读(39) 评论(0) 收藏举报
刷新页面返回顶部
【正则表达式】

公告