ai ----语音克隆数字人项目相关方案

1 接入deepseek ，通过一句话生成故事，有图片，文本，视频（开源项目）

可以借助ollma 本地部署deepseek

https://github.com/alecm20/story-flicks

阿里云收费数字人接入已经有了
https://help.aliyun.com/document_detail/450522.html

2 语音克隆开源组件

一 gptsovits

https://mp.weixin.qq.com/s/jOjcgpFRh__utY08PaTEEg

二 ebook2audiobook

https://github.com/DrewThomasson/ebook2audiobook

三 cosyvoice2

这是阿里开源的声音克隆和合成的模型感觉还可以：https://funaudiollm.github.io/cosyvoice2/ 。看介绍还支持流式。对硬件要求和gpt-sovits 相差不大。

3 数字人开源组件

阿里开源数字人对话系统

https://github.com/HumanAIGC-Engineering/OpenAvatarChat
Open Avatar Chat 是一个模块化的交互式数字人对话系统，能够在单台PC上实现完整的对话功能。该系统支持多模态语言模型，能够在支持CUDA的GPU上运行，未量化的多模态语言模型需要20GB以上的显存，而使用int4量化版本的语言模型则可以在不到10GB显存的显卡上运行，尽管量化可能会影响部分效果。数字人部分使用CPU进行推理，测试设备为i9-13980HX，能够达到30FPS的流畅度。在测试PC上，平均回答延迟时间约为2.2秒，测试设备为i9-13900KF和Nvidia RTX 4090。系统依赖多个开源项目，包括RTC（HumanAIGC-Engineering/gradio-webrtc）、VAD（snakers4/silero-vad）、LLM（OpenBMB/MiniCPM-o）和Avatar（HumanAIGC/lite-avatar）。用户需要自行下载多模态语言模型，并可以通过提供的脚本生成自签名SSL证书。系统支持容器化运行或直接运行，配置灵活，用户可以通过配置文件调整日志级别、服务监听地址、端口等参数。目前已实现的Handler提供了VAD和语言模型的可配置参数，用户可以根据需求进行调整。
https://github.com/HumanAIGC/lite-avatar
LiteAvatar 是一个实时2D聊天数字人模型，能够在仅使用CPU的设备上以30FPS的帧率运行，无需GPU加速。该模型包括一个高效的ASR模型用于音频特征提取，一个基于音频特征输入的嘴部参数预测模型，以及一个轻量级的2D面部生成模型，能够实时渲染嘴部动作，并且可以部署在移动设备上实现实时推理。数据准备方面，用户需要获取并解压位于./data/sample_data.zip的样本数据。安装过程推荐使用Python 3.10和CUDA 11.8，并通过pip install -r requirements.txt构建环境。推理时，用户可以通过命令行指定数据目录、音频文件和结果目录，生成的mp4视频将保存在结果目录中。LiteAvatar还提供了一个实时交互式视频聊天演示，用户可以通过OpenAvatarChat体验。该项目感谢多个开源项目的支持，包括Paraformer和FunASR用于音频特征提取。

4 StoryWeaver 开源模型：故事可视化生成模型，快速生成故事绘本，支持处理单角色和多角色的故事可视化任务。

https://github.com/Aria-Zhangjl/StoryWeaver

posted @ 2025-02-21 20:28 JavAndroidJSql 阅读(36) 评论(0) 收藏举报

刷新页面返回顶部

工作学习生活思考总结

ai ----语音克隆数字人项目相关方案

公告

工作学习生活思考总结

ai ----语音克隆 数字人 项目相关方案

公告

ai ----语音克隆数字人项目相关方案