一文看懂小智AI:控制台、ESP32终端与MCP服务器的协作逻辑

一文看懂小智AI:控制台、ESP32终端与MCP服务器的协作逻辑

虾哥开源的小智AI项目,是一套打通语音交互、AI对话与物联网控制的端云协同系统,核心由小智控制台、ESP32小智终端、MCP服务器三大模块构成,再依托WebSocket协议实现全链路数据流转,各司其职又紧密衔接,最终实现“语音对话+智能控制”的一体化体验。

一、ESP32小智终端:系统的“感知与执行端”

ESP32小智终端是用户直接交互的硬件入口,核心作用是采集语音、本地转文字、播放音频、执行设备动作,相当于小智AI的“耳朵”和“扬声器”。

它搭载ESP32‑S3芯片,集成麦克风、扬声器、WiFi模块,核心工作流程:

  1. 语音采集:通过麦克风拾取用户语音,本地完成唤醒、降噪,并将语音压缩。
  2. 上传与播放:将压缩的语音通过WebSocket发给控制台;收到控制台下发的音频流后,直接播放。
  3. 双重身份:它既可以是单纯的交互终端,也可以兼任 MCP 服务器,直接响应大模型的控制指令。

ESP32终端不做语音ASR(流式ASR由某个大模型来做)和合成,只负责播放。

二、小智控制台(服务器):系统的“核心中间件与调度中心”

小智控制台是整个系统的大脑,也是TTS语音合成的唯一执行端,承担三大核心功能:

  1. 请求包装与大模型对接
    接收终端通过websocket(或MQTT等协议)上传的压缩语音,调用大模型进行流式ASR,收到文本后再注入角色设定(性格、语气),发送给大模型生成回答。

  2. TTS语音合成(关键)
    接收大模型返回的文字,在控制台完成TTS合成,选择音色(萌妹、台湾腔、小朋友等),生成音频流。

  3. 结果下发与协议透传
    将合成好的音频流下发给终端播放;同时作为桥梁,透传 MCP 协议数据,让大模型与 MCP 服务器直接通信。

控制台 = 中间件 + TTS合成中心 + WebSocket服务端 + MCP协议透传通道

三、MCP服务器(可以是 ESP32 终端本身,也可以是独立的传感器、执行器、智能家居设备):系统的“物联网工具集”

MCP(Model Context Protocol)服务器是可灵活部署的物联网终端,核心作用是提供可被大模型直接调用的工具集

  • 身份灵活:可以是 ESP32 终端本身,也可以是独立的传感器、执行器、智能家居设备。
  • 调用关系大模型(MCP客户端)直接通过 MCP 协议调用 MCP 服务器上的工具(如开灯、读温度),控制台仅负责透传协议数据,不参与指令解析。
  • 执行与回传:MCP 服务器执行指令后,直接将状态结果回传给大模型,形成闭环。

四、WebSocket服务器:全链路“数据透传通道”

WebSocket贯穿终端、控制台、MCP,实现低延迟、全双工通信:

  • 终端 ↔ 控制台:文字上传、音频下发
  • 控制台 ↔ MCP:MCP 协议数据透传(大模型 ↔ MCP 服务器的指令与状态)

只透传,不处理数据。

五、完整数据流转(正确流程)

  1. 用户说话 → ESP32语音压缩 → 发给控制台
  2. 控制台把压缩语音发给某种大模型 → 大模型做流式ASR → 控制台收到文本 → 包装请求 → 发给LLM大模型 → 大模型生成回答文字
  3. 控制台做TTS合成音频 → 下发给ESP32 → ESP32播放
  4. 若需控制设备:大模型通过 MCP 协议 → 控制台透传 → MCP 服务器执行 → 回传状态给大模型
  5. 大模型整合状态 → 生成回复 → 控制台合成语音 → ESP32播报结果
posted @ 2026-03-31 11:16  wangya216  阅读(6)  评论(0)    收藏  举报