语音助手自然对话技术突破

自然对话转换:多模态信号融合实现流畅交互

自然对话转换功能利用多模态信号——包括声学、语言和视觉线索——使语音助手能够更自然地交互,无需重复唤醒词。该功能的人工智能系统能够识别用户何时结束讲话、语音是否指向设备以及是否期待回复。

技术架构演进

自然对话转换基于现有的后续模式(Follow-Up Mode)构建,原有系统仅使用声学线索区分设备指向性语音。新系统增加了视觉信息处理能力:搭载摄像头的设备通过终端算法处理图像数据,根据说话人的身体位置推断其是否可能正在与语音助手交互。

计算机视觉算法的输出与现有声学检测算法输出相结合,输入至终端融合模型,最终确定语音的设备指向性。这种方法即使在多用户相互交流且同时与语音助手交互的场景下,也能准确识别设备指向性语音。

关键技术突破

智能打断处理
自然对话转换的核心能力之一是处理用户打断行为(barge-ins)。当用户打断语音助手输出时(例如说"改为显示意大利餐厅"),系统会停止说话并立即处理新请求。

在上下文打断场景中,系统需准确记录被打断时的输出进度。例如当语音助手正在列举选项列表时,用户打断说"选那个",系统能识别"那个"指向被打断时正在朗读的选项。该功能通过比较被打断语音的开始时间戳与打断发生时间戳的差异,确定用户所指的具体内容,并将该信息传递至对话管理系统用于生成准确响应。

用户语速自适应
系统计划测试用户语速适应功能,通过多种信号判断用户是否完成发言或需要额外提示。这些信号包括:

  • 填充词(如"呃"、"嗯")
  • 元音延长(如"让我想想……")
  • 不完整语句(如"我觉得我要选")

技术扩展方向

研究团队正在开发从语音信号推断设备指向性的新技术。最新方法综合使用客户语句的句法特征、语义特征以及现有后续模式采用的声学特征,进一步提升识别精度。

该自然对话转换功能计划于次年正式推出,标志着人机交互技术向更自然、更智能的方向迈出重要一步。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-09-01 12:40  CodeShare  阅读(0)  评论(0)    收藏  举报