Python 去掉文本内容中的\xa0字符

爬取网页时，不可避免会遇到\xa0字符串，就会发现，正则re.sub(r’\xa0’, ‘’)和字符串的replace都不管用。

通常地，我们所用的空格的ASCII码是 \x20 ，是在标准ASCII可见字符 0x20~0x7e 范围内的。而 \xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。latin1 字符集可向下兼容 ASCII （ 0x20~0x7e ）。由于\xa0 实际上是 Latin1 (ISO 8859-1) 中的不间断空格，也是 chr(160)，所以应该将它替换为空格。

看了网上很多方法，比如有人用字符串的split()方法先进行分割，再用join()方法进行连接，是可以去掉\xa0字符，可是如果原本字符串里就有空格，想保留的空格也一并去掉了。所以这个方法不算严谨。

还有人建议用ord()+fromkeys()+translate()方法，功能是实现了，可看起来是不是太复杂了，这几个方法平时都太少用到了。

通过不断尝试，我发现一个简单的replace(u’\xa0’, u‘’)方法就可以实现了，比如：

import re
 
s='\xa0/\xa0The Shawshank Redemption'
s.replace(u'\xa0', u' ')
print(s)

输出：

/ The Shawshank Redemption

完美解决。不试过真是不知道会遇到什么问题。

注意：当.encode(‘utf-8’)时，它会将unicode编码为utf-8，这意味着每个unicode可以用1到4个字节表示。对于这种情况，\xa0 由 2 个字节 \xc2\xa0 表示。

posted on 2023-01-05 11:21 HandsomeFa 阅读(1410) 评论(0) 收藏举报

刷新页面返回顶部