python re操作

如有一文件,需要提取出每行内的汉字,剔除每行的制表符(\t)、换行符(\n)及数字后存到一个列表内。

 

import re
data = []
#打开文件
with open('data_vocab.json','r',encoding='utf-8') as f:

    #for 遍历文件,每行读取出为一个字符串i,如:0   啊哈哈 12345
    for i in f.readlines():

        #方法一:使用正则方法,取消掉0-9数字,取消掉制表符(\t),取消掉换行符(\n),生成新的字符串new_str
        new_str = re.sub("[0-9\t\n]", "", i)

        #方法二:属于笨办法,在不使用正则的情况下,把不需要的字符全部替换为"",生成新的字符串new_str
        # new_str =  i.replace('\n','').replace('\t','').replace('1','').replace('2','').replace('3','').replace('4','')\
        #     .replace('5','').replace('6','').replace('7','').replace('8','').replace('9','').replace('0','')

        data.append(new_str)
print(data)

  

posted on 2018-12-18 15:03  wuhl_89  阅读(180)  评论(0)    收藏  举报

导航