会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
gnal
博客园
首页
新随笔
联系
订阅
管理
2022年3月3日
网页爬虫中 、\xa0、\u3000等字符的去除
摘要: 如果其他办法你都试了 不如试试 这个 使用unicodedata模块 Python标准库的unicodedata模块提供了normalize方法将Unicode字符转换为正常字符,该方法可算是处理这类情况最好的方法了,它会让字符回归到我们期望看到的样子,同时不损害其它正常的空白字符,而且还能还原其它
阅读全文
posted @ 2022-03-03 21:11 gnal
阅读(349)
评论(0)
推荐(0)
编辑
公告