正则表达式的使用

作用:匹配文中指定格式的字符串。
想在Pycharm中爬取网页数据,正则表达式是逃不掉的一关,只要明白这个工具的思想,基本就能应付各种防护性不高的网站数据的收集。
对于普通用户来说,能够爬取自己喜欢的图片电影,毕竟谁也不想付费去下载这些东西。

常用匹配如下:

语法 匹配对象 表示 意思
[a-z][A-Z]+ v [a-z] 匹配a-z中任意一个字符
abc [a-z]+ 匹配a-z中的多个字符
abcCAz [a-z]+[A-Z]+[a-z]
[0-9]+ 9 [0-9] 匹配0-9中任意一个字符
321 [0-9]+ 匹配0-9中的多个字符
\ \ \\ 匹配单个\
. \. 匹配单个.
/ \/ 匹配单个/
\: 匹配单个:
[] {} ( [(] 匹配(

很多的匹配可在网上查到,这里就不赘述了。
对于爬网站的小伙伴基本够用了。

posted @ 2023-01-06 22:34  在这颗星球上的旅行  阅读(61)  评论(0)    收藏  举报