摘要:
这个问题来自于一个小伙伴,他在处理中文数据时需要先把里面的文本过滤然后分词,因为里面有许多符号,不仅是中文标点符号,还有✳,emoji等奇怪的符号。 正常情况下,中文的str经过encode('utf-8')变成bytes,然后bytes经过decode('utf-8')变回中文。 原始文件是txt 阅读全文
posted @ 2018-10-31 21:00
白鲸123
阅读(14113)
评论(0)
推荐(1)


浙公网安备 33010602011771号