requests返回数据的处理

编码看网页源代码，搜索charset=。

resp.encoding = 'utf-8'

resp.encoding = 'gbk'

关于内容三种方法：

一、etree。https://www.cnblogs.com/sbsdnyn/p/17537533.html

二、文本 .split()。进行来回分割，少的还好说，多的就不合适了。

三、正则。目前认为是最强大的。

re.findall()，其中re.S表示.可以匹配换行符，(?!xxx). 表示排除xxx。

lis_reg = re.findall('(.*?)', 'str', re.S) # 不用re.S，只匹配一行内。

findall返回一个list，如果多个子匹配，好像是用元组包起来的。

posted @ 2023-07-07 16:45 sbsdnyn 阅读(146) 评论(0) 收藏举报

刷新页面返回顶部