ICASSP 2024语音技术论文精选

某机构在ICASSP 2024的20余篇论文速览

今年发表的论文涉及语音增强、口语理解、对话、副语言学和音高估计等主题。

国际声学、语音与信号处理会议(ICASSP 2024)于4月14日至19日在韩国首尔举行。某机构作为"全球最大最全面的信号处理及其应用技术会议"的铜牌赞助商参与会议。

某机构的参与包括举办"可信语音处理"研讨会,该研讨会的两位组织者来自某机构人工智能通用基础组织:高级应用科学家Anil Ramakrishna和应用科学高级经理Rahul Gupta。此外,某设备研究科学高级经理Wontak Kim将发表题为"算法开发的合成数据:实际案例与经验教训"的焦点演讲。

与往年一样,某机构多数被接收论文聚焦自动语音识别技术。语音增强、口语理解和唤醒词识别等主题均得到充分体现。今年的出版物还涉及对话、副语言学、音高估计和负责任人工智能等领域。以下是对某机构20余篇会议论文的快速指南。

主要研究内容

受话人检测

  • 长期社交互动语境:自我中心受话人检测的关键

音频事件检测

  • 音频事件检测中的交叉触发问题及缓解方案

自动语音识别(ASR)

  • 最大间隔转录器损失:通过大间隔学习策略改进序列判别训练
  • Promptformer:用于ASR的提示化Conformer转录器
  • 对话语音助手的显著ASR错误检测
  • 任务导向对话作为自监督自动语音识别的催化剂

计算机视觉

  • 图神经网络在二维化妆迁移中的肤色解耦

对话系统

  • 基于声学与大语言模型融合的话轮转换和反馈预测

副语言学

  • 副语言学增强的口语对话大语言建模

音高估计

  • 极低复杂度的噪声鲁棒DSP辅助神经音高估计

负责任AI

  • 利用置信度模型识别语音模型中具有挑战性的数据子组

说话人识别

  • 解耦注册和运行时说话人识别模型的训练后嵌入对齐

语音增强

  • NoLACE:通过自适应时域整形改进低复杂度语音编解码增强
  • 基于双路径结构的空间线索保持实时立体声语音增强
  • 使用改进冷扩散的可扩展高效语音增强:残差学习方法

口语理解

  • S2E:从声学信号到端到端实体解析解决方案
  • 通过词混淆网络的上下文学习实现ASR鲁棒口语理解

文本转语音

  • Mapache:用于高级语音编辑和合成的掩码并行变压器

唤醒词识别

  • 通过神经模型重编程实现端到端ASR的热修复唤醒词识别
  • 关键词检测的最大熵对抗音频增强
  • 通过量化感知预训练和微调实现设备端受限自监督关键词检测

研究领域

  • 对话式AI
  • 自动语音识别(ASR)
  • 语音增强
  • 口语理解(SLU)

相关技术标签

自动语音识别(ASR)、语音增强、口语理解(SLU)、ICASSP
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-08-30 08:05  CodeShare  阅读(37)  评论(0)    收藏  举报