【AI小智项目】TTS生成的音频转换为Opus格式

项目背景——为了实现 ESP32 语音的播放,服务器要做的工作

一般,TTS引擎生成的语音常常为 wav 或者 mp3 格式,但是 ESP32 是需要接收 Opus 格式进行播放的,所以需要采取手段,将 wav 或者 mp3 数据转换为 Opus 格式, 整体流程图如下:

image

当然,图中有很多疑问:

0. 对整体逻辑有疑问, 为什么 ESP32 不直接支持 mp3 格式的播放呢?

1. 无论 mp3 还是 wav,要做的第一步,本质上都是转换为 PCM 格式的数据

那么,在设置声道、采样率、位宽的时候,参数比原来要求低的情况,可以截取采样,但假如参数比原来音频格式要求高,怎么办呢?

2. mp3 数据经过压缩,应该是有损压缩,那么如果还原成 PCM

image

image

使用 pip install -r requirements.txt安装软件包

image

posted @ 2026-01-06 22:09  FBshark  阅读(5)  评论(0)    收藏  举报