ICASSP 2024语音技术论文精选
某机构在ICASSP 2024的20余篇论文速览
今年发表的论文涉及语音增强、口语理解、对话、副语言学和音高估计等主题。
国际声学、语音与信号处理会议(ICASSP 2024)于4月14日至19日在韩国首尔举行。某机构作为"全球最大最全面的信号处理及其应用技术会议"的铜牌赞助商参与会议。
某机构的参与包括举办"可信语音处理"研讨会,该研讨会的两位组织者来自某机构人工智能通用基础组织:高级应用科学家Anil Ramakrishna和应用科学高级经理Rahul Gupta。此外,某设备研究科学高级经理Wontak Kim将发表题为"算法开发的合成数据:实际案例与经验教训"的焦点演讲。
与往年一样,某机构多数被接收论文聚焦自动语音识别技术。语音增强、口语理解和唤醒词识别等主题均得到充分体现。今年的出版物还涉及对话、副语言学、音高估计和负责任人工智能等领域。以下是对某机构20余篇会议论文的快速指南。
主要研究内容
受话人检测
- 长期社交互动语境:自我中心受话人检测的关键
音频事件检测
- 音频事件检测中的交叉触发问题及缓解方案
自动语音识别(ASR)
- 最大间隔转录器损失:通过大间隔学习策略改进序列判别训练
- Promptformer:用于ASR的提示化Conformer转录器
- 对话语音助手的显著ASR错误检测
- 任务导向对话作为自监督自动语音识别的催化剂
计算机视觉
- 图神经网络在二维化妆迁移中的肤色解耦
对话系统
- 基于声学与大语言模型融合的话轮转换和反馈预测
副语言学
- 副语言学增强的口语对话大语言建模
音高估计
- 极低复杂度的噪声鲁棒DSP辅助神经音高估计
负责任AI
- 利用置信度模型识别语音模型中具有挑战性的数据子组
说话人识别
- 解耦注册和运行时说话人识别模型的训练后嵌入对齐
语音增强
- NoLACE:通过自适应时域整形改进低复杂度语音编解码增强
- 基于双路径结构的空间线索保持实时立体声语音增强
- 使用改进冷扩散的可扩展高效语音增强:残差学习方法
口语理解
- S2E:从声学信号到端到端实体解析解决方案
- 通过词混淆网络的上下文学习实现ASR鲁棒口语理解
文本转语音
- Mapache:用于高级语音编辑和合成的掩码并行变压器
唤醒词识别
- 通过神经模型重编程实现端到端ASR的热修复唤醒词识别
- 关键词检测的最大熵对抗音频增强
- 通过量化感知预训练和微调实现设备端受限自监督关键词检测
研究领域
- 对话式AI
- 自动语音识别(ASR)
- 语音增强
- 口语理解(SLU)
相关技术标签
自动语音识别(ASR)、语音增强、口语理解(SLU)、ICASSP
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

 
                    
                     
                    
                 
                    
                
 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号