关于爬虫的技术记录

今天再爬虫的正则表达式里纠结了很久，记录下来，防止忘记再浪费时间

 content = requests.get(url)
        
 m=re.findall(r'<a href=\"([0-9a-zA-Z\_\/\.\%\?\=\-\&]+)\"',content.text,re.I)

要匹配href="   "中的内容，只需要用（.*?）就可以全部匹配

1、一开始，我把content变成str(content)放在正则匹配式中，无法匹配，可能是因为str(content)是空的。

所以一定要用content.text来匹配

2、用requests.get得到的content可能有乱码，只需加入一行代码：content.encoding = ('utf-8')即可

posted @ 2019-11-29 22:43 Crays-Zhang 阅读(110) 评论(0) 收藏举报

刷新页面返回顶部

Crays-Zhang

关于爬虫的技术记录

公告