实时Galgame - 动漫角色 语音生成+图片生成
文字转语音
看到B站推荐的视频,想了解到2025年10月最新文字转语言技术,并本地部署跑下
实时Galgame成了! IndexTTS2接入酒馆SillyTavern实时语音,角色语音情感控制,兼容酒馆API调用,B站开源最强AI语音模型
技术栈: SillyTavern(酒馆)+index TTS 2
1. SillyTavern(酒馆)
官方网址
教程地址:
【AI女友】酒馆Silly Tavern视频教程(一)下载与搭建
本地部署后:
SillyTavern自动生图插件
2. index TTS 2
官方网址
本地部署后:
实际应用(pdf书籍文章朗读)
最近在读计算机相关pdf书籍,想用 pdf+OCR+TTS2 实现pdf 文字朗读功能。
实现思路:
-
pdf + Umi-OCR 进行图像的文字识别。 或者不用图像识别,下载书籍epub文件,直接复制文字。(图像识别可能有错别字)
-
将识别的文件添加到剪切板。
-
复制到TTS2 中进行语音生成。
有各种工具,可以优化这一流程,后续可以将实现思路和效果发视频,集思广益让网友提出建议。
比如将跑出来的案例配动漫AI图+计算机书籍文章朗读 上传B站,测试不同的效果,让网友看看效果。
3. Index-TTS-2.0 整合包
4. 音色和各种情感下载
5.YouDub AI翻译配音
实际效果视频
【中配】快速平方根倒数:雷神之锤3的经典算法解析 - Nemean
其他相关
Deepseek API 注册网址:
Gemini API
https://aistudio.google.com/app/api-keys
https://gemini.google.com/app

浙公网安备 33010602011771号