正则表达式-- (.*?) 或 (.*+)

正则表达式在爬虫中的应用,可以更好的取自己想要的数据,有些时候也可以应对那些反爬取的网站。 

后边多一个?表示懒惰模式。
必须跟在*或者+后边用
如:<img src="test.jpg" width="60px" height="80px"/>
如果用正则匹配src中内容非懒惰模式匹配
src=".*"
匹配结果是:src="test.jpg" width="60px" height="80px"
意思是从="往后匹配,直到最后一个"匹配结束
 
懒惰模式正则:
src=".*?"
结果:src="test.jpg"
因为匹配到第一个"就结束了一次匹配。不会继续向后匹配。因为他懒惰嘛。
 
.表示除\n之外的任意字符
*表示匹配0-无穷
+表示匹配1-无穷

原文地址:https://blog.csdn.net/qq_37503890/article/details/94610002

 

posted @ 2020-05-11 17:11  kszsa  阅读(863)  评论(0编辑  收藏  举报