python读取中文txt操作 转化为拼音

import re
f = open('geci.txt','r',encoding="gbk")
word = f.read()
f.close()

p2 = re.compile(r'[^\u4e00-\u9fa5]')
zh = "".join(p2.split(word)).strip()

print(zh)

txt另存为,编码选ANSI(默认)的话,打开文件时要加上encoding=gbk

中文编码范围是u4e00到u9fa5

所以可以利用正则表达式

pypinyin

http://pypinyin.mozillazg.com/zh_CN/master/usage.html

>>> from pypinyin import pinyin, lazy_pinyin, Style
>>> pinyin('中心')
[['zhōng'], ['xīn']]
>>> pinyin('中心', heteronym=True)  # 启用多音字模式
[['zhōng', 'zhòng'], ['xīn']]
>>> pinyin('中心', style=Style.FIRST_LETTER)  # 设置拼音风格
[['z'], ['x']]
>>> pinyin('中心', style=Style.TONE2, heteronym=True)
[['zho1ng', 'zho4ng'], ['xi1n']]
>>> lazy_pinyin('中心')  # 不考虑多音字的情况
['zhong', 'xin']

 

posted @ 2018-04-19 09:32  Mrfri  阅读(1591)  评论(0编辑  收藏  举报