语音纠正功能实现原理
语音纠正功能实现原理

技术模块对照表
|
功能 |
输入源 |
核心技术 |
输出目标 |
|
OCR文本发音纠正 |
书本图像 |
OCR+ERNIE拼音转换+同音字替换 |
生成正确发音的TTS音频 |
|
ASR发音评测 |
用户朗读音频 |
ASR+ERNIE拼音对比 |
发音错误定位与语音反馈 |
第一个是语音阅读出识别的文本的模块
第二个是错字纠音
项目优势:
|
能力 |
传统工具 |
本项目 |
|
多音字语境识别 |
❌ 固定规则 |
✅ 动态语义分析(结合上下文) 区别于传统声学模型,ERNIE结合上下文判断读音: “了”在普通语句读le(你要走了?) 在古诗“春花秋月何时了”强制读liǎo |
|
错误解释清晰度 |
“发音错误” |
“见读xiàn,像看见的见” |
|
方言适应性 |
❌ |
✅ 支持方言发音对比(文档6.2.1节) |

浙公网安备 33010602011771号