python把中文文档变为拼音

缘由

新看到的一篇文章，被吓尿。Text Understanding from Scratch，认为word的cnn抽象能力还不够好，使用character来做cnn效果更佳。结果是，由于论文的使用的数据集里test和train有隐含的重叠，作者一度撤稿。
但是不妨碍这一思路的进展。由此扩展到中文内容理解，但是中文的单个汉子已经是最小个体了啊。
莫温台！把汉字转成拼音再训练character的卷积。

pip install xpinyin

这是个中文转拼音的pakage

>>> from xpinyin import Pinyin
>>> p = Pinyin()
>>> # default splitter is `-`
>>> p.get_pinyin(u"上海")
'shang-hai'
>>> # show tone marks
>>> p.get_pinyin(u"上海", show_tone_marks=True)
'shàng-hǎi'
>>> # remove splitter
>>> p.get_pinyin(u"上海", '')
'shanghai'
>>> # set splitter as whitespace
>>> p.get_pinyin(u"上海", ' ')
'shang hai'
>>> p.get_initial(u"上")
'S'
>>> p.get_initials(u"上海")
'S-H'
>>> p.get_initials(u"上海", u'')
'SH'
>>> p.get_initials(u"上海", u' ')
'S H'

posted on 2017-05-05 14:28 星河赵阅读(318) 评论(0) 收藏举报

刷新页面返回顶部

一天一点到

python把中文文档变为拼音

缘由

pip install xpinyin

导航

公告