正则表达式的使用
作用:匹配文中指定格式的字符串。
想在Pycharm中爬取网页数据,正则表达式是逃不掉的一关,只要明白这个工具的思想,基本就能应付各种防护性不高的网站数据的收集。
对于普通用户来说,能够爬取自己喜欢的图片电影,毕竟谁也不想付费去下载这些东西。
常用匹配如下:
| 语法 | 匹配对象 | 表示 | 意思 |
|---|---|---|---|
| [a-z][A-Z]+ | v | [a-z] | 匹配a-z中任意一个字符 |
| abc | [a-z]+ | 匹配a-z中的多个字符 | |
| abcCAz | [a-z]+[A-Z]+[a-z] | ||
| [0-9]+ | 9 | [0-9] | 匹配0-9中任意一个字符 |
| 321 | [0-9]+ | 匹配0-9中的多个字符 | |
| \ | \ | \\ | 匹配单个\ |
| . | \. | 匹配单个. | |
| / | \/ | 匹配单个/ | |
| : | \: | 匹配单个: | |
| [] {} | ( | [(] | 匹配( |
很多的匹配可在网上查到,这里就不赘述了。
对于爬网站的小伙伴基本够用了。

浙公网安备 33010602011771号