关于爬虫的技术记录

今天再爬虫的正则表达式里纠结了很久,记录下来,防止忘记再浪费时间

 content = requests.get(url)
        
 m=re.findall(r'<a href=\"([0-9a-zA-Z\_\/\.\%\?\=\-\&]+)\"',content.text,re.I)

要匹配href=" "中的内容,只需要用(.*?)就可以全部匹配

1、一开始,我把content变成str(content)放在正则匹配式中,无法匹配,可能是因为str(content)是空的。

 

所以一定要用content.text来匹配

 

2、 用requests.get得到的content可能有乱码,只需加入一行代码:content.encoding = ('utf-8')即可

 

posted @ 2019-11-29 22:43  Crays-Zhang  阅读(108)  评论(0)    收藏  举报