团队作业2

系统名称

VoiceForge(或根据风格自定义,如“魔音变声器”、“AI声纹转换器”等)

简短描述

VoiceForge 是一款基于人工智能的实时变声软件,支持多种音色转换、语音特效及自定义声线调整,适用于游戏直播、内容创作、隐私保护等场景。

面向用户分析

  1. 目标用户群体:
    游戏玩家/主播:在直播或语音聊天时使用变声效果增加趣味性
    内容创作者(短视频/配音/VTuber):快速生成不同风格的配音
    隐私保护需求者:通话或录音时隐藏真实声纹
    语音合成开发者:用于AI语音数据增强

  2. 用户需求分析:
    用户类型核心需求使用场景
    游戏主播 实时变声、搞怪音效 Discord/TeamSpeak/游戏内语音
    短视频博主 高质量AI配音、角色声线 视频剪辑、配音合成
    隐私用户 自然无痕的声纹伪装 匿名通话、录音

功能性需求

核心功能:

  • 实时变声
    支持麦克风输入实时变声(低延迟)
    预设音效(男变女、女变男、机器人、卡通音等)
    AI声线克隆

  • 用户可上传样本音频,生成自定义声线
    支持名人/动漫角色声音模拟(需合规)
    语音特效
    回声、混响、电音、变速变调等效果

  • 多平台兼容
    支持Windows/macOS/Android/iOS
    虚拟音频设备(VB-Cable等)接入

  • 录音与导出
    变声后音频保存(MP3/WAV格式)
    扩展功能(可选):
    背景噪音消除
    情绪语音合成(愤怒、悲伤、欢乐等语调)
    语音转换API(供开发者集成)

技术需求

模块 Python技术方案
前端交互 保留跨平台框架(Electron/Flutter),通过Python后端API通信
音频输入/输出 sounddevice/PyAudio 实时音频流捕获与播放
实时变声引擎 - 核心模型:PyTorch + ONNX Runtime(加速推理)

  • 轻量化模型架构:RVTS-Lite
    声线克隆 - 使用开源框架So-VITS-SVC(Python实现)
  • 本地训练接口:FastAPI + CUDA加速
    语音特效 - DSP处理:librosa(频谱分析)
  • 实时音效:pydub + numpy信号处理
    跨平台兼容 封装平台相关驱动:
  • Windows:pycaw(音频控制)

GitHub仓库:https://github.com/Moguiyou/teamwork

issue截图

团队分工

职责 队员
前端 莫桂友
后端 熊翔
测试 莫桂友
PM 熊翔
posted @ 2025-04-12 22:52  桂友  阅读(75)  评论(0)    收藏  举报