网页爬虫中&nbsp、\xa0、\u3000等字符的去除

如果其他办法你都试了 不如试试 这个 

使用unicodedata模块

Python标准库的unicodedata模块提供了normalize方法将Unicode字符转换为正常字符,该方法可算是处理这类情况最好的方法了,它会让字符回归到我们期望看到的样子,同时不损害其它正常的空白字符,而且还能还原其它非空白字符。normalize第一个参数指定字符串标准化的方式。 NFC表示字符应该是整体组成(比如可能的话就使用单一编码),而NFD表示字符应该分解为多个组合字符表示。Python同样支持扩展的标准化形式NFKCNFKD,它们在处理某些字符的时候增加了额外的兼容特性。使用该方法处理\xa0等字符的示例如下:

import unicodedata
a = 'aaa\xa0bbbb'
b = unicodedata.normalize('NFKC', a)
print(a)

参考:https://www.jianshu.com/p/56d4babcc555

posted @ 2022-03-03 21:11  gnal  阅读(496)  评论(0)    收藏  举报