构建包容性人机对话的语音处理技术

“我们的身份决定了我们说话的内容和方式”——某中心科学

某中心研究奖获得者Shrikanth Narayanan，南加州大学工程学教授，致力于创建包容性的人机对话体验。

信号处理的复杂基础

Narayanan回忆道，早在高中时期他就对人类体验的科学面着迷。当时，他主要对生理学感兴趣，但回顾过去，他认为自己的好奇心带有修补工程师的特质。

“我一直对这一切如何运作感兴趣，”他说。“我想知道心脏如何工作，大脑中发生了什么，它们如何协同工作。我通过系统这个镜头来看待人类——个体内部和个体之间发生的信息流。”

90年代初，他在加州大学洛杉矶分校攻读电气工程博士学位时，成功结合了自己多样化的兴趣。“我接受的是电气工程培训，但我真的希望有机会研究更直接与人类系统相关的东西，”他说。他有机会在AT&T贝尔实验室实习，并意识到人类语言包含了他希望帮助解决的所有谜团。

“人类语音是一个具有复杂基础的信号，”他说。“有认知方面、心理方面和运动方面。我们使用声音乐器创建信号，然后由人们处理。”Narayanan对帮助对话顺利进行所涉及的所有数据着迷——以及对话如何容易出错。

他还对发育障碍和健康状况可能改变创建和解释语音过程的方式，以及人类文化背景的丰富多样性如何影响语音识别和合成的功效产生了兴趣。

2000年，Narayanan创立了南加州大学信号分析与解释实验室（SAIL），专注于“以人为中心的信号和信息处理，解决关键的社会需求”。在过去的二十年里，SAIL在音频、语音、语言、图像、视频和生物信号处理、人类和环境传感与成像，以及以人为中心的机器学习方面取得了进展。该实验室还应用他们的发现创建“包容性技术，以及支持包容的技术，”Narayanan说。

建立对AI的信任

“即使我们说同一种语言，”Narayanan说，“我们的身份决定了我们说话的内容和方式。这对儿童尤其迷人，因为他们的语音代表了一个随着持续发育变化而移动的目标。”

不仅仅是儿童的发音器官随着成长不断变化。他们还在认知和社交方面发展。这可能意味着他们使用的词语和使用方式快速变化。当你加入其他可能使这些语音变化与已经多样化的平均水平不同的因素——文化背景、说话或听力障碍、认知差异或发育延迟——训练语音助手与儿童有效沟通构成了真正的挑战。

当同时与两个人互动时，分析变得更加复杂，尤其当一个是成人，一个是儿童。使用某中心弹性计算云（某中心 EC2）处理数据，SAIL在自动语音识别等核心能力上取得了进展，以改进说话人日志——分割人类语音音频以确定谁在何时说话的过程。

2021年，SAIL还发布了一项关于儿童语音识别的详细实证研究。他们发现，在成人语音上设定高基准的最先进端到端系统在理解儿童方面存在严重缺陷。次年，该实验室提出了一种基于语音时间变异性估计儿童年龄的新技术。

通过测量使儿童难以与AI互动的语音方面——如停顿长度的变化和发音某些声音所需的时间——他的团队能够可靠地测量儿童的发育阶段。这可以帮助AI适应语言技能较不成熟的用户的需求。由于分析依赖于可以剥离其他识别信息的信号，该方法还有助于保护儿童的隐私。

引领下一代研究人员

与某中心合作使Narayanan的实验室能够通过实践镜头探索关键研究主题。他指出，这种性质的合作为他这样的学者提供了时间和支持来处理复杂、精细的研究问题——例如涉及儿童和其他脆弱人群的问题。

此外，Narayanan的研究生可以直接与某中心科学家合作，了解他们研究的潜在实际应用。“这种合作真正将研究提升到了一个新的水平，”他说。

Narayanan还鼓励数十名学生到某中心实习，探索行业提供的机会。正如他在贝尔实验室的时间帮助明确了自己的兴趣一样，他说，他目睹了无数年轻工程师在某中心为他们的技能找到了令人兴奋的新应用。

从 gently nudge 考虑某中心实习和工作职位开始，已经发展成为稳定的某中心招聘渠道——Narayanan说这完全归功于他实验室校友的优点。

持续的技术挑战

Narayanan指出，过去五年我们在收集和分析人类行为信息的能力方面发生了根本性变化。“技术系统已经实现了这种工程飞跃，并允许了我们尚未想象的应用，”他说。“所有这些人都在开放的真实世界环境中与这些设备互动，我们拥有机器学习和深度学习进步来实际使用这些音频数据。”

他说，下一个巨大挑战是找出如何处理这些数据，不仅服务于用户，而且确保他们的信任。除了继续研究各种发育差异如何影响语音识别——以及AI如何学会适应它们——Narayanan希望找到新的方法来掩盖尽可能多的用户数据以保护隐私，同时提取语音助手所需的信号。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-09-04 19:11 CodeShare 阅读(13) 评论(0) 收藏举报

刷新页面返回顶部

codeshare1135

构建包容性人机对话的语音处理技术

构建包容性人机对话的语音处理技术

信号处理的复杂基础

建立对AI的信任

引领下一代研究人员

持续的技术挑战

公告