中文自然语言处理中去掉英文字符、数字和特殊字符的便捷用法
做自然语言处理的同学,经常会对中文文本进行处理,对于一些特殊字符要去掉,现在把代码收集一下,用的时候也方便
1 import re 2 3 s = 'dneog1893^&&341den' 4 r1 = "[a-zA-Z0-9\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、:;;《》“”~@#¥%……&*()]+" 5 data = re.sub(r1, '', s)
时刻记着自己要成为什么样的人!
做自然语言处理的同学,经常会对中文文本进行处理,对于一些特殊字符要去掉,现在把代码收集一下,用的时候也方便
1 import re 2 3 s = 'dneog1893^&&341den' 4 r1 = "[a-zA-Z0-9\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、:;;《》“”~@#¥%……&*()]+" 5 data = re.sub(r1, '', s)