【论文阅读】Neural Pinyin-to-Chinese Character Converter

使用seq2seq的方式，将拼音序列转换为汉字序列，模型结构：

1.准备训练数据

2.构建Pinyin-Chinese平行语料，zh.tsv，p [char] + ["_"] * (len(p) - 1)

3.生成词典，保存为pkl文件

4.训练模型

5.预测

优点：end2end模型结构，不需要各种词表、人工特征等，只要有中文语料就可以得到平行语料，缺点：深度学习模型的不可解释性，有些没有很好的学习到上下文。

思考：如果扩充、调整训练语料，不知是否得到一个可以工业化应用的模型效果。

posted @ 2020-03-24 16:47 AliceYing 阅读(346) 评论(0) 收藏举报

刷新页面返回顶部

AliceYing