某中心ICASSP 2022五十余篇论文技术概览
某中心ICASSP 2022五十余篇论文技术概览
研究主题从可预测的语音识别和信号处理,到时间序列预测和个性化技术。
会议: ICASSP 2022
某研究机构的研究人员在今年的国际声学、语音与信号处理会议(ICASSP)上发表了超过50篇论文。其中多数是关于自动语音识别及相关主题,如关键词唤醒和说话人识别。但其他论文涉及的范围更广,涵盖计算机视觉和联邦学习等主题。
今年的ICASSP包括虚拟会议(5月7日至13日)和新加坡的现场会议(5月22日至27日)。
声学事件检测
- 联邦自监督学习用于声学事件分类:Meng Feng, Chieh-Chi Kao, Qingming Tang, Ming Sun, Viktor Rozgic, Spyros Matsoukas, Chao Wang
- 使用树状结构本体改进声学事件分类的表示学习:Arman Zharmagambetov, Qingming Tang, Chieh-Chi Kao, Qin Zhang, Ming Sun, Viktor Rozgic, Jasha Droppo, Chao Wang
- WikiTAG:基于维基百科的知识嵌入以改进声学事件分类:Qin Zhang, Qingming Tang, Chieh-Chi Kao, Ming Sun, Yang Liu, Chao Wang
自动语音识别
- 基于似然比的端到端模型领域自适应方法:Chhavi Choudhury, Ankur Gandhe, Xiaohan Ding, Ivan Bulyko
- 贪心无妨:端到端语音识别的采样策略:Jahn Heymann, Egor Lakomkin, Leif Rādell
- 缓存网络:利用公共语音进行ASR:Anastasios Alexandridis, Grant P. Strimel, Ariya Rastrow, Pavel Kveton, Jon Webb, Maurizio Omologo, Siegfried Kunzmann, Athanasios Mouchtaris
- LATTENTION:ASR重打分中的网格注意力机制:Prabhat Pandey, Sergio Duarte Torres, Ali Orkan Bayer, Ankur Gandhe, Volker Leutnant
- 用于神经转录器中个性化语音识别的上下文适配器:Kanthashree Mysore Sathyendra, Thejaswi Muniyappa, Feng-Ju Chang, Jing Liu, Jinru Su, Grant P. Strimel, Athanasios Mouchtaris, Siegfried Kunzmann
- 倾听、知晓与拼写:用于提高OOV命名实体ASR性能的知识注入子词建模:Nilaksh Das, Monica Sunkara, Dhanush Bekal, Duen Horng Chau, Sravan Bodapati, Katrin Kirchhoff
- 利用贝叶斯神经建模减轻封闭模型对抗样本以增强端到端语音识别:Chao-Han Huck Yang, Zeeshan Ahmed, Yile Gu, Joseph Szurley, Roger Ren, Linda Liu, Andreas Stolcke, Ivan Bulyko
- 用于自动语音识别的多模态预训练:David M. Chan, Shalini Ghosh, Debmalya Chakrabarty, Björn Hoffmeister
- 用于多方向语音流式识别的多轮RNN-T:Ilya Sklyar, Anna Piunova, Xianrui Zheng, Yulan Liu
- RescoreBERT:使用BERT进行判别性语音识别重打分:Liyan Xu, Yile Gu, Jari Kolehmainen, Haidar Khan, Ankur Gandhe, Ariya Rastrow, Andreas Stolcke, Ivan Bulyko
- USTED:使用统一的语音和文本编码器-解码器改进ASR:Bolaji Yusuf, Ankur Gandhe, Alex Sokolov
- VADOI:用于端到端长语音识别的语音活动检测重叠推理:Jinhan Wang, Xiaosu Tong, Jinxi Guo, Di He, Roland Maas
计算机视觉
- ASD-transformer:使用自注意力和多模态变换器进行高效主动说话人检测:Gourav Datta, Tyler Etchart, Vivek Yadav, Varsha Hedau, Pradeep Natarajan, Shih-Fu Chang
- 动态修剪SegFormer以实现高效的语义分割:Haoli Bai, Hongda Mao, Dinesh Nair
- 利用时间感知增强对比学习以生成视听表示:Chandrashekhar Lavania, Shiva Sundaram, Sundararajan Srinivasan, Katrin Kirchhoff
- 具有模型偏移预测器的少样本视线估计:Jiawei Ma, Xu Zhang, Yue Wu, Varsha Hedau, Shih-Fu Chang
- 用于低标签高数据场景的具有自监督注意力的视觉表示学习:Prarthana Bhattacharyya, Chenge Li, Xiaonan Zhao, István Fehérvári, Jason Sun
联邦学习
- 联邦学习的挑战与机遇:展望:Jie Ding, Eric Tramel, Anit Kumar Sahu, Shuang Wu, Salman Avestimehr, Tao Zhang
- 现实世界联邦学习的经验教训:Christophe Dupuy, Tanya G. Roosta, Leo Long, Clement Chung, Rahul Gupta, Salman Avestimehr
信息检索
- 用于基于请求的食谱推荐的对比知识图谱注意力网络:Xiyao Ma, Zheng Gao, Qian Hu, Mohamed Abdelhady
关键词唤醒
- 统一的推测、检测和验证关键词唤醒:Geng-shen Fu, Thibaud Senechal, Aaron Challenner, Tao Zhang
机器翻译
- 等距MT:用于自动配音的神经机器翻译:Surafel Melaku Lakew, Yogesh Virkar, Prashant Mathur, Marcello Federico
自然语言理解
- ADVIN:从用户文本话语中自动发现新领域和意图:Nikhita Vedula, Rahul Gupta, Aman Alok, Mukund Sridhar, Shankar Ananthakrishnan
- 用于大规模NLU模型的高效DP-SGD机制:Christophe Dupuy, Radhika Arava, Rahul Gupta, Anna Rumshisky
副语言学
- 基于情感类别与基元关系的语音情感识别置信度估计:Yang Li, Constantinos Papayiannis, Viktor Rozgic, Elizabeth Shriberg, Chao Wang
- 使用wav2vec 2.0的多语言多任务语音情感识别:Mayank Sharma
- 通过跨模态条件师生训练进行语音情感识别的表示学习:Sundararajan Srinivasan, Zhaocheng Huang, Katrin Kirchhoff
- 用于增强语音情感识别的感知情感的自动语音识别预训练:Ayoub Ghriss, Bo Yang, Viktor Rozgic, Elizabeth Shriberg, Chao Wang
个性化
- 用于个性化文本分类的增量用户嵌入建模:Ruixue Lian, Che-Wei Huang, Yuqing Tang, Qilong Gu, Chengyuan Ma, Chenlei (Edward) Guo
信号处理
- 深度自适应AEC:深度学习与自适应声学回声消除的混合:Hao Zhang, Srivatsan Kandadai, Harsha Rao, Minje Kim, Tarun Pruthi, Trausti Kristjansson
- 使用基于色谱图的音高感知重混音改进歌声分离:Siyuan Yuan, Zhepei Wang, Umut Isik, Ritwik Giri, Jean-Marc Valin, Michael M. Goodwin, Arvindh Krishnaswamy
- 声波的稀疏恢复:Mohamed Mansour
- 通过风格转换进行上混:用于解耦空间图像和音乐内容的变分自编码器:Haici Yang, Sanna Wager, Spencer Russell, Mike Luo, Minje Kim, Wontak Kim
声源定位
- 端到端设备仲裁:Jarred Barber, Yifeng Fan, Tao Zhang
说话人日志/识别/验证
- ASR感知的端到端神经日志记录:Aparna Khare, Eunjung Han, Yuguang Yang, Andreas Stolcke
- 通过组适应融合网络改进说话人验证的公平性:Hua Shen, Yuguang Yang, Guoli Sun, Ryan Langman, Eunjung Han, Jasha Droppo, Andreas Stolcke
- OpenFEAT:使用Transformer通过开放集少样本嵌入自适应改进说话人识别:Kishan K C, Zhenning Tan, Long Chen, Minho Jin, Eunjung Han, Andreas Stolcke, Chul Lee
- 使用人机对话的自监督说话人识别训练:Metehan Cekic, Ruirui Li, Zeya Chen, Yuguang Yang, Andreas Stolcke, Upamanyu Madhow
- 使用简单孪生网络和自监督正则化的自监督说话人验证:Mufan Sang, Haoqi Li, Fang Liu, Andrew O. Arnold, Li Wan
口语语言理解
- 用于端到端对话行为分类的神经韵律编码器:Kai Wei, Dillon Knox, Martin Radfar, Thanh Tran, Markus Mueller, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris, Maurizio Omologo
- 具有语义解码器的多任务RNN-T用于可流式口语语言理解:Xuandi Fu, Feng-Ju Chang, Martin Radfar, Kai Wei, Jing Liu, Grant P. Strimel, Kanthashree Mysore Sathyendra
- 绑定你的嵌入:用于端到端口语语言理解的跨模态潜在空间:Bhuvan Agrawal, Markus Mueller, Samridhi Choudhary, Martin Radfar, Athanasios Mouchtaris, Ross McGowan, Nathan Susanj, Siegfried Kunzmann
- TINYS2I:具有上下文支持的小型话语分类模型,用于设备端SLU:Anastasios Alexandridis, Kanthashree Mysore Sathyendra, Grant P. Strimel, Pavel Kveton, Jon Webb, Athanasios Mouchtaris
文本转语音
- 使用数据增强进行跨说话人风格迁移的文本转语音:Manuel Sam Ribeiro, Julian Roth, Giulia Comini, Goeric Huybrechts, Adam Gabrys, Jaime Lorenzo-Trueba
- 用于低资源表达性文本转语音的分布增强:Mateusz Lajszczak, Animesh Prasad, Arent van Korlaar, Bajibabu Bollepalli, Antonio Bonafonte, Arnaud Joly, Marco Nicolis, Alexis Moinet, Thomas Drugman, Trevor Wood, Elena Sokolova
- 用于自动配音的神经TTS持续时间建模:Johanes Effendi, Yogesh Virkar, Roberto Barra-Chicote, Marcello Federico
- 精打细算的神经语音合成:提高LPCNET的效率:Jean-Marc Valin, Umut Isik, Paris Smaragdis, Arvindh Krishnaswamy
- 使用标准化流的无文本非并行多对多语音转换:Thomas Merritt, Abdelhamid Ezzerg, Piotr Biliński, Magdalena Proszewska, Kamil Pokora, Roberto Barra-Chicote, Daniel Korzekwa
- VoiceFilter:使用语音转换作为后处理模块的少样本文本转语音说话人自适应:Adam Gabrys, Goeric Huybrechts, Manuel Sam Ribeiro, Chung-Ming Chien, Julian Roth, Giulia Comini, Roberto Barra-Chicote, Bartek Perz, Jaime Lorenzo-Trueba
时间序列预测
- 具有基于回测的引导法和自适应残差选择的稳健非参数分布预测:Longshaokan Marshall Wang, Lingda Wang, Mina Georgieva, Paulo Machado, Abinaya Ulagappa, Safwan Ahmed, Yan Lu, Arjun Bakshi, Farhad Ghassemi
研究领域:对话式AI
标签:ICASSP, 语音, 文本转语音 (TTS)
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号