ICASSP 2024语音技术前沿论文速览

会议背景

国际声学、语音与信号处理会议（ICASSP 2024）于4月14-19日在首尔举行。某机构作为铜牌赞助商参与，并组织了"可信语音处理"研讨会，由AGI基础组织的高级应用科学家Anil Ramakrishna和研究经理Rahul Gupta共同主持。

技术亮点

语音识别（ASR）创新
- 最大间隔转录器损失：通过大间隔学习策略改进序列判别训练，从预训练模型的N-best列表中分离优质/劣质假设
- Promptformer架构：基于Conformer转录器的新型ASR框架
- 对话引导的自监督学习：利用任务型对话提升ASR性能
端到端实体解析
- S2E系统：直接从音频信号解析实体指称到文本目录的可操作实体，架构包含声学编码器与实体链接模块
语音增强技术
- NoLACE算法：通过自适应时域整形改进低复杂度语音编解码增强
- 实时立体声增强：基于双路径结构保持空间线索
说话人识别
- 嵌入对齐技术：解耦注册模型和运行时模型的参数更新
唤醒词检测
- 神经模型重编程：通过热修复技术适配端到端ASR系统
- 最大熵对抗增强：提升关键词识别的鲁棒性

其他研究方向

副语言学增强：结合大语言模型建模对话中的非语言信息
音高估计：低复杂度DSP辅助的神经网络方法
负责任AI：利用置信度模型识别语音模型中的挑战性数据子群

更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-08-14 22:21 CodeShare 阅读(102) 评论(0) 收藏举报

刷新页面返回顶部