三种解析方式
1、re解析(正则表达式)
2、bs4解析
3、xpath解析
正则表达式
Regular Expression,一种使用表达式的方式对字符串进行匹配的语法规则
优点:速度快,效率高,准确性高
缺点:难度高
正则语法:使用元字符进行排列组合用来匹配字字符串,在线测试正则表达式:https://tool.oschina.net/regex/
元字符:具有固定含义的特殊字符
常用元字符:
. 匹配除换行符以外的任何字符
\w 匹配字母、数字或者下划线
\s 匹配任意的空白字符
\d 匹配数字
\n 匹配一个换行符
\t 匹配一个制表符
^ 匹配字符串的开始
$ 匹配字符串的结尾
\W 匹配非字母或下划线
\D 匹配非数字
\S 匹配非空白符
a|b 匹配字符a或者b
() 匹配括号内的表达式,也表示一个组
[...] 匹配字符组中的字符
[^...] 匹配除了字符组中字符的所有字符
量词:
(控制前面元字符出现的次数)
* 重复0次或更多次
+ 重复1次或更多次
? 重复0次或一次
{n} 重复n次
{n.} 重复n次或更多次
{n,m} 重复n到m次
贪婪匹配和惰性匹配
.* 贪婪匹配
.*? 惰性匹配
写爬虫用的最多的就是惰性匹配