python re操作
如有一文件,需要提取出每行内的汉字,剔除每行的制表符(\t)、换行符(\n)及数字后存到一个列表内。

import re
data = []
#打开文件
with open('data_vocab.json','r',encoding='utf-8') as f:
#for 遍历文件,每行读取出为一个字符串i,如:0 啊哈哈 12345
for i in f.readlines():
#方法一:使用正则方法,取消掉0-9数字,取消掉制表符(\t),取消掉换行符(\n),生成新的字符串new_str
new_str = re.sub("[0-9\t\n]", "", i)
#方法二:属于笨办法,在不使用正则的情况下,把不需要的字符全部替换为"",生成新的字符串new_str
# new_str = i.replace('\n','').replace('\t','').replace('1','').replace('2','').replace('3','').replace('4','')\
# .replace('5','').replace('6','').replace('7','').replace('8','').replace('9','').replace('0','')
data.append(new_str)
print(data)
浙公网安备 33010602011771号