会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
但行好事.莫问前程
博客园
首页
新随笔
联系
订阅
管理
2025年7月23日
fantasy-talking:实现图片加音频生成对嘴数字人
摘要: 引言:一张图也能“说话”? 你有没有想过,一张静态的照片,配上一段音频,就能变成一段“对嘴”的视频?不是简单的口型同步,而是让图片中的人物“活过来”,仿佛真的在说话、唱歌、甚至表演。 这听起来像是科幻电影里的场景,但其实,这样的技术已经在我们身边悄然实现了。 之前已经介绍过一些类似项目的搭建: FL
阅读全文
posted @ 2025-07-23 17:43 Joy_CShow
阅读(604)
评论(0)
推荐(1)
2025年7月22日
window中搭建wsl环境
摘要: 最近在搭建很多AI项目时总会遇到一下编译问题,而且很多的编译不支持window环境,所以想着在window中搭建一个虚拟机,wsl就很好的实现了。 window->WSL(Ubuntu)->conda 一:安装wsl 直接使用命令安装: wsl --install 如果window的版本比较低,需要
阅读全文
posted @ 2025-07-22 18:01 Joy_CShow
阅读(62)
评论(0)
推荐(0)
2025年7月17日
图片对嘴生成视频:HunyuanVideo-Avatar
摘要: 之前几章有相应的介绍,一张图片和一个音频,生成一段对嘴视频。 FLOAT: https://www.cnblogs.com/cj8988/p/18984186 (带表情,比较快,但是会裁剪为正方形尺寸) DICE-Talk:https://www.cnblogs.com/cj8988/p/18957
阅读全文
posted @ 2025-07-17 17:29 Joy_CShow
阅读(566)
评论(4)
推荐(1)
2025年7月15日
音频克隆:对话文本到口语对话生成MOSS-TTSD
摘要: 之前介绍过几个音频克隆的可以项目:CosyVoice:https://www.cnblogs.com/cj8988/p/18975495IndexTTS:https://www.cnblogs.com/cj8988/p/18973016GPT-SoVITS:https://www.cnblogs.c
阅读全文
posted @ 2025-07-15 15:28 Joy_CShow
阅读(782)
评论(3)
推荐(3)
2025年7月14日
图片生成对嘴视频FLOAT
摘要: 之前已经介绍过图片对嘴生成视频的开源工具: DICE-Talk:https://www.cnblogs.com/cj8988/p/18957718 (带表情,比较慢) ComfyUI_Sonic:https://www.cnblogs.com/cj8988/p/18952604 (基础版) 本章在介
阅读全文
posted @ 2025-07-14 16:02 Joy_CShow
阅读(664)
评论(0)
推荐(2)
2025年7月10日
开源AI工具-文字生成图片Fooocus
摘要: 上一章介绍了一个文生图的开源框架:stable-diffusion 介绍:https://www.cnblogs.com/cj8988/p/18976662 本章介绍另外一个文生图开源框架:Fooocus 一:下载 地址:https://github.com/lllyasviel/Fooocus 二
阅读全文
posted @ 2025-07-10 19:48 Joy_CShow
阅读(114)
评论(0)
推荐(0)
文生图:介绍一个文字生成图片的开源工具
摘要: 之前介绍过音频处理,图片生成视频,图片+音频对嘴,视频+音频对嘴。 今天介绍一个文字生成图片的开源项目,我已经在本地搭建完成了使用了。 一:下载源代码 地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui 直接下载,解压就行。 二:环境
阅读全文
posted @ 2025-07-10 12:13 Joy_CShow
阅读(757)
评论(0)
推荐(0)
2025年7月9日
音频克隆阿里版-CosyVoice
摘要: 前面介绍过了音频克隆 IndexTTS: https://www.cnblogs.com/cj8988/p/18973016 ComfyUI_IndexTTS: https://www.cnblogs.com/cj8988/p/18973609 GPT-SoVITS:https://www.cnbl
阅读全文
posted @ 2025-07-09 18:42 Joy_CShow
阅读(434)
评论(0)
推荐(1)
2025年7月8日
音频克隆-Index-TTS进阶版(ComfyUI_IndexTTS)可以实现多人对话
摘要: 之前介绍过Index-TTS,音频克隆,现在是他的ComfyUI版本,实现了多人对话版本。 单人音频克隆:https://www.cnblogs.com/cj8988/p/18973016 一:参考之前的文档,搭建ComfyUI工具。 https://www.cnblogs.com/cj8988/p
阅读全文
posted @ 2025-07-08 18:49 Joy_CShow
阅读(1137)
评论(0)
推荐(0)
文字生成视频开源AI大模型项目
摘要: 今天介绍几个开源的文字生成视频(Text-to-Video)项目。像 Google Veo 3 或 OpenAI Sora 那样的电影级、高一致性、长时长的效果,是不是心动了。之前有介绍过几款开源项目,我都在我的本地电脑上搭建成功了,而且试用过效果都不错。但是文字生成视频的我的电脑运行不起来,配置不
阅读全文
posted @ 2025-07-08 16:10 Joy_CShow
阅读(337)
评论(0)
推荐(0)
下一页
公告