深入解析：【理论到操作实现】让AI玩具机器人等智能硬件在嘈杂环境中只听我说话

前言

本文分享的小聆AI相关的语改善音理论和声纹技术主要是用来提升AI 智能玩具、机器人等智能硬件在实际场景的语音交互体验。在用户使用中通常会遇到这些问题：1、身边人交谈干扰；2、用户发音模糊；3、玩具碰撞声、哭闹声等突发高频噪声易被声学 VAD 误判为语音；4、呼吸声、风声等高频干扰导致语音失真。针对这些影响人机交互的常见问题，小聆AI做了对应处理，并在小程序端增加了单独人声虑噪的配置功能,大家按照文章中的步骤操作即可自主实现智能硬件对应功能。下方视频为实际人机交互场景中的率噪效果。

人声虑噪

单独人声虑噪的实现理论

为保证AI玩具机器人等智能硬件在嘈杂环境中只听“我”说话的效果，从以下几点进行了优化：

语音VAD优化：消除非人声噪声，不响应常见家居噪声（如风扇、电视等）
声纹过滤：对人声进行声纹对比，只保留指定声纹的音频
语义VAD噪声过滤：分析上下文语义，用户附和时不打断播报，用户犹豫、停顿延长拾音时间

实现步骤

准备一个语音交互硬件，可以是CSK6大模型开发板、聆思Arcsmini大模型MCP开发板、也可以是ESP32语音模组

打开“小聆AI”小程序，点击添加设备，选择对应硬件按提示操作即可完成绑定进行配置（ESP32的开发板可以选择【开源套件】）

绑定成功后，进入【语音识别配置】→【识别模式】→【仅识别已注册声纹的用户】

识别默认默认为【所有人】

识别已注册声纹的用户：在连续交互模式下，仅识别已注册声纹的用户语音，如果只想让AI语音只回复指定人可以选择这项

识别唤醒设备的用户：在连续交互模式下，仅支持唤醒设备的用户继续交互，其余人的语音将不会被识别（可以理解为AI语音只回复用名字叫醒它的那个人）

点击【确认】后，进入声纹注册页面，点击【开始录音】，按文本读完后点击创建即可。

声纹创建成功后会进入声纹对应的【编辑画像】界面，这个页面可以手动填入声纹主人的兴趣爱好、需要AI长期记忆的内容。

画像编辑完成后返回【识别模式】界面，选择【仅识别已注册声纹的用户】即可构建视频中的效果。

小聆AI语音交互的更多资料和玩法实现参考

小聆AI详细配置参考：https://docs2.listenai.com/x/S_TEd8h7C

零代码克隆原神可莉实现桌面陪伴参考： https://docs2.listenai.com/x/x7CVdoQI3

更多个性配置方法可能参考官方开发文档：https://docs2.listenai.com/x/S_TEd8h7C

CSK6大模型开发板的硬件资料：https://docs2.listenai.com/x/nTn9kMMCU

posted @ 2025-11-12 04:35 ycfenxi 阅读(14) 评论(0) 收藏举报

刷新页面返回顶部

深入解析：【理论到操作实现】让AI玩具机器人等智能硬件在嘈杂环境中只听我说话

前言

单独人声虑噪的实现理论

实现步骤

小聆AI语音交互的更多资料和玩法实现参考

公告