一文看懂小智AI:控制台、ESP32终端与MCP服务器的协作逻辑
一文看懂小智AI:控制台、ESP32终端与MCP服务器的协作逻辑
虾哥开源的小智AI项目,是一套打通语音交互、AI对话与物联网控制的端云协同系统,核心由小智控制台、ESP32小智终端、MCP服务器三大模块构成,再依托WebSocket协议实现全链路数据流转,各司其职又紧密衔接,最终实现“语音对话+智能控制”的一体化体验。
一、ESP32小智终端:系统的“感知与执行端”
ESP32小智终端是用户直接交互的硬件入口,核心作用是采集语音、本地转文字、播放音频、执行设备动作,相当于小智AI的“耳朵”和“扬声器”。
它搭载ESP32‑S3芯片,集成麦克风、扬声器、WiFi模块,核心工作流程:
- 语音采集:通过麦克风拾取用户语音,本地完成唤醒、降噪,并将语音压缩。
- 上传与播放:将压缩的语音通过WebSocket发给控制台;收到控制台下发的音频流后,直接播放。
- 双重身份:它既可以是单纯的交互终端,也可以兼任 MCP 服务器,直接响应大模型的控制指令。
ESP32终端不做语音ASR(流式ASR由某个大模型来做)和合成,只负责播放。
二、小智控制台(服务器):系统的“核心中间件与调度中心”
小智控制台是整个系统的大脑,也是TTS语音合成的唯一执行端,承担三大核心功能:
-
请求包装与大模型对接
接收终端通过websocket(或MQTT等协议)上传的压缩语音,调用大模型进行流式ASR,收到文本后再注入角色设定(性格、语气),发送给大模型生成回答。 -
TTS语音合成(关键)
接收大模型返回的文字,在控制台完成TTS合成,选择音色(萌妹、台湾腔、小朋友等),生成音频流。 -
结果下发与协议透传
将合成好的音频流下发给终端播放;同时作为桥梁,透传 MCP 协议数据,让大模型与 MCP 服务器直接通信。
控制台 = 中间件 + TTS合成中心 + WebSocket服务端 + MCP协议透传通道
三、MCP服务器(可以是 ESP32 终端本身,也可以是独立的传感器、执行器、智能家居设备):系统的“物联网工具集”
MCP(Model Context Protocol)服务器是可灵活部署的物联网终端,核心作用是提供可被大模型直接调用的工具集。
- 身份灵活:可以是 ESP32 终端本身,也可以是独立的传感器、执行器、智能家居设备。
- 调用关系:大模型(MCP客户端)直接通过 MCP 协议调用 MCP 服务器上的工具(如开灯、读温度),控制台仅负责透传协议数据,不参与指令解析。
- 执行与回传:MCP 服务器执行指令后,直接将状态结果回传给大模型,形成闭环。
四、WebSocket服务器:全链路“数据透传通道”
WebSocket贯穿终端、控制台、MCP,实现低延迟、全双工通信:
- 终端 ↔ 控制台:文字上传、音频下发
- 控制台 ↔ MCP:MCP 协议数据透传(大模型 ↔ MCP 服务器的指令与状态)
只透传,不处理数据。
五、完整数据流转(正确流程)
- 用户说话 → ESP32语音压缩 → 发给控制台
- 控制台把压缩语音发给某种大模型 → 大模型做流式ASR → 控制台收到文本 → 包装请求 → 发给LLM大模型 → 大模型生成回答文字
- 控制台做TTS合成音频 → 下发给ESP32 → ESP32播放
- 若需控制设备:大模型通过 MCP 协议 → 控制台透传 → MCP 服务器执行 → 回传状态给大模型
- 大模型整合状态 → 生成回复 → 控制台合成语音 → ESP32播报结果

浙公网安备 33010602011771号