ai ----语音克隆 数字人 项目相关方案

 

 

1  接入deepseek ,通过一句话生成 故事,有图片,文本,视频 (开源项目)

可以借助ollma 本地部署deepseek

https://github.com/alecm20/story-flicks

 

阿里云收费数字人 接入 已经有了
https://help.aliyun.com/document_detail/450522.html

 

 

 

 

 

2  语音克隆 开源组件

一 gptsovits

https://mp.weixin.qq.com/s/jOjcgpFRh__utY08PaTEEg

二  ebook2audiobook

https://github.com/DrewThomasson/ebook2audiobook

三  cosyvoice2

这是阿里开源的声音克隆和合成的模型感觉还可以:https://funaudiollm.github.io/cosyvoice2/  。看介绍还支持流式。对硬件要求和gpt-sovits 相差不大。

 

 

 

 

3  数字人开源组件

阿里开源数字人对话系统

https://github.com/HumanAIGC-Engineering/OpenAvatarChat
Open Avatar Chat 是一个模块化的交互式数字人对话系统,能够在单台PC上实现完整的对话功能。该系统支持多模态语言模型,能够在支持CUDA的GPU上运行,未量化的多模态语言模型需要20GB以上的显存,而使用int4量化版本的语言模型则可以在不到10GB显存的显卡上运行,尽管量化可能会影响部分效果。数字人部分使用CPU进行推理,测试设备为i9-13980HX,能够达到30FPS的流畅度。在测试PC上,平均回答延迟时间约为2.2秒,测试设备为i9-13900KF和Nvidia RTX 4090。系统依赖多个开源项目,包括RTC(HumanAIGC-Engineering/gradio-webrtc)、VAD(snakers4/silero-vad)、LLM(OpenBMB/MiniCPM-o)和Avatar(HumanAIGC/lite-avatar)。用户需要自行下载多模态语言模型,并可以通过提供的脚本生成自签名SSL证书。系统支持容器化运行或直接运行,配置灵活,用户可以通过配置文件调整日志级别、服务监听地址、端口等参数。目前已实现的Handler提供了VAD和语言模型的可配置参数,用户可以根据需求进行调整。
https://github.com/HumanAIGC/lite-avatar
LiteAvatar 是一个实时2D聊天数字人模型,能够在仅使用CPU的设备上以30FPS的帧率运行,无需GPU加速。该模型包括一个高效的ASR模型用于音频特征提取,一个基于音频特征输入的嘴部参数预测模型,以及一个轻量级的2D面部生成模型,能够实时渲染嘴部动作,并且可以部署在移动设备上实现实时推理。数据准备方面,用户需要获取并解压位于./data/sample_data.zip的样本数据。安装过程推荐使用Python 3.10和CUDA 11.8,并通过pip install -r requirements.txt构建环境。推理时,用户可以通过命令行指定数据目录、音频文件和结果目录,生成的mp4视频将保存在结果目录中。LiteAvatar还提供了一个实时交互式视频聊天演示,用户可以通过OpenAvatarChat体验。该项目感谢多个开源项目的支持,包括Paraformer和FunASR用于音频特征提取。

 

 

 

4  StoryWeaver 开源模型:故事可视化生成模型,快速生成故事绘本,支持处理单角色和多角色的故事可视化任务。

https://github.com/Aria-Zhangjl/StoryWeaver

 

posted @ 2025-02-21 20:28  JavAndroidJSql  阅读(36)  评论(0)    收藏  举报