python re操作

如有一文件，需要提取出每行内的汉字，剔除每行的制表符（\t）、换行符（\n）及数字后存到一个列表内。

import re
data = []
#打开文件
with open('data_vocab.json','r',encoding='utf-8') as f:

    #for 遍历文件，每行读取出为一个字符串i，如：0   啊哈哈 12345
    for i in f.readlines():

        #方法一：使用正则方法，取消掉0-9数字，取消掉制表符(\t)，取消掉换行符(\n),生成新的字符串new_str
        new_str = re.sub("[0-9\t\n]", "", i)

        #方法二：属于笨办法，在不使用正则的情况下，把不需要的字符全部替换为""，生成新的字符串new_str
        # new_str =  i.replace('\n','').replace('\t','').replace('1','').replace('2','').replace('3','').replace('4','')\
        #     .replace('5','').replace('6','').replace('7','').replace('8','').replace('9','').replace('0','')

        data.append(new_str)
print(data)

posted on 2018-12-18 15:03 wuhl_89 阅读(182) 评论(0) 收藏举报

刷新页面返回顶部

python re操作

导航

公告