requests返回数据的处理

编码看网页源代码,搜索charset=。
resp.encoding = 'utf-8'
resp.encoding = 'gbk'
 
关于内容三种方法:
一、etree。https://www.cnblogs.com/sbsdnyn/p/17537533.html
 
二、文本 .split()。进行来回分割,少的还好说,多的就不合适了。
 三、正则。目前认为是最强大的。
re.findall(),其中re.S表示.可以匹配换行符,(?!xxx). 表示排除xxx。
lis_reg = re.findall('(.*?)', 'str', re.S) # 不用re.S,只匹配一行内。
findall返回一个list,如果多个子匹配,好像是用元组包起来的。

posted @ 2023-07-07 16:45  sbsdnyn  阅读(139)  评论(0)    收藏  举报