实时Galgame - 动漫角色 语音生成+图片生成

文字转语音

看到B站推荐的视频,想了解到2025年10月最新文字转语言技术,并本地部署跑下

实时Galgame成了! IndexTTS2接入酒馆SillyTavern实时语音,角色语音情感控制,兼容酒馆API调用,B站开源最强AI语音模型

技术栈: SillyTavern(酒馆)+index TTS 2

1. SillyTavern(酒馆)

官方网址

SillyTavern中文文档

github - SillyTavern

教程地址:

【AI女友】酒馆Silly Tavern视频教程(一)下载与搭建

本地部署后:

SillyTavern 本地访问地址

SillyTavern自动生图插件

Sillytavern酒馆自动生图教程

2. index TTS 2

官方网址

github - index-tts

IndexTTS2 demo page

本地部署后:

TTS2 本地访问地址

实际应用(pdf书籍文章朗读)

最近在读计算机相关pdf书籍,想用 pdf+OCR+TTS2 实现pdf 文字朗读功能。

实现思路:

  1. pdf + Umi-OCR 进行图像的文字识别。 或者不用图像识别,下载书籍epub文件,直接复制文字。(图像识别可能有错别字)

  2. 将识别的文件添加到剪切板。

  3. 复制到TTS2 中进行语音生成。

有各种工具,可以优化这一流程,后续可以将实现思路和效果发视频,集思广益让网友提出建议。

比如将跑出来的案例配动漫AI图+计算机书籍文章朗读 上传B站,测试不同的效果,让网友看看效果。

3. Index-TTS-2.0 整合包

Index-TTS-2.0 整合包下载与新手使用教程

4. 音色和各种情感下载

游戏语音包

模型下载- 整合站

5.YouDub AI翻译配音

github - YouDub-webui

实际效果视频

【中配】快速平方根倒数:雷神之锤3的经典算法解析 - Nemean

其他相关

Deepseek API 注册网址:

deepseek 官方开放平台

技术爬爬虾- 火山引擎 注册deepseek

Gemini API

https://aistudio.google.com/app/api-keys
https://gemini.google.com/app

posted @ 2025-10-12 21:49  长江~之星  阅读(48)  评论(0)    收藏  举报