网页爬虫中 、\xa0、\u3000等字符的去除
如果其他办法你都试了 不如试试 这个
使用unicodedata模块
Python标准库的unicodedata模块提供了normalize方法将Unicode字符转换为正常字符,该方法可算是处理这类情况最好的方法了,它会让字符回归到我们期望看到的样子,同时不损害其它正常的空白字符,而且还能还原其它非空白字符。normalize第一个参数指定字符串标准化的方式。 NFC表示字符应该是整体组成(比如可能的话就使用单一编码),而NFD表示字符应该分解为多个组合字符表示。Python同样支持扩展的标准化形式NFKC和NFKD,它们在处理某些字符的时候增加了额外的兼容特性。使用该方法处理\xa0等字符的示例如下:
import unicodedata a = 'aaa\xa0bbbb' b = unicodedata.normalize('NFKC', a) print(a)

浙公网安备 33010602011771号