语音纠正功能实现原理

语音纠正功能实现原理

 

 

技术模块对照表

功能

输入源

核心技术

输出目标

OCR文本发音纠正

书本图像

OCR+ERNIE拼音转换+同音字替换

生成正确发音的TTS音频

ASR发音评测

用户朗读音频

ASR+ERNIE拼音对比

发音错误定位与语音反馈

第一个是语音阅读出识别的文本的模块

第二个是错字纠音

 

 

 

 

项目优势:

 

 

能力

传统工具

本项目

多音字语境识别

❌ 固定规则

✅ 动态语义分析(结合上下文)

区别于传统声学模型,ERNIE结合上下文判断读音:

“了”在普通语句读le(你要走了?)

在古诗“春花秋月何时了”强制读liǎo

错误解释清晰度

“发音错误”

“见读xiàn,像看见的见”

方言适应性

✅ 支持方言发音对比(文档6.2.1节)

posted @ 2025-06-26 11:23  艾鑫4646  阅读(16)  评论(0)    收藏  举报