requests返回数据的处理
编码看网页源代码,搜索charset=。
resp.encoding = 'utf-8'
resp.encoding = 'gbk'
关于内容三种方法:
一、etree。https://www.cnblogs.com/sbsdnyn/p/17537533.html
二、文本 .split()。进行来回分割,少的还好说,多的就不合适了。
三、正则。目前认为是最强大的。
re.findall(),其中re.S表示.可以匹配换行符,(?!xxx). 表示排除xxx。
lis_reg = re.findall('(.*?)', 'str', re.S) # 不用re.S,只匹配一行内。
findall返回一个list,如果多个子匹配,好像是用元组包起来的。

浙公网安备 33010602011771号