摘要:
以[小落同学](https://x.oddmeta.net "小落同学")而言,她支持天气预报,会议调度,智能家居控制等多种智能体功能,她的做法是部署多个不同的智能体,也即:启动多个oddagent,每个oddagent配置一个智能体配置,并绑定一个端口,然后前置一个工作流接受用户输入,并根据用户的输出再导到不同的oddagent过去处理。 阅读全文
以[小落同学](https://x.oddmeta.net "小落同学")而言,她支持天气预报,会议调度,智能家居控制等多种智能体功能,她的做法是部署多个不同的智能体,也即:启动多个oddagent,每个oddagent配置一个智能体配置,并绑定一个端口,然后前置一个工作流接受用户输入,并根据用户的输出再导到不同的oddagent过去处理。 阅读全文
posted @ 2026-01-07 09:02
程序员老奥
阅读(137)
评论(0)
推荐(0)
市面上各种虚拟人方案多如牛毛,但是基本上清一色都需要GPU,咱买不起带GPU的电脑,所以自己手搓了这么一个方案。
这篇文章就是记录一下,12GB 显存的消费级 GPU 上,怎么配一套完整的小落同学虚拟人方案。
搞来搞去,还是切回paraformer模型。如果不是因为我这个用了超过十年的老笔记本CPU不太够用,我也完全不想去折腾一些其他的轻量级的ASR模型。
前阵子我把Kokoro整合到OddTTS里,给我的小落同学项目用起来了,结合 Moonshine(语音识别)+ Kokoro(语音合成),可以实现完全的本地端到端语音对话,但是由于我的电脑配置太差(十年前的老笔记本),所以还是想再把OddASR的模型再给换一个更轻量级的试试看效果,这个Moonshine的数据看上去不错,后面准备把它整合一下到OddASR,放到小落同学上去跑跑看效果。
为OddTTS加了一下变声的功能,用的是ffmpeg的方案,时延稍微增加一点,但是还可以接受。
我自己也在做一个类似的东西,叫**小落同学**。看到 Pika AI Selves 的时候,第一反应是:终于有人跟我想到一块去了。第二反应是:但我们的路数不太一样。
OpenSpec 能保证 AI 理解了你的需求,但不能保证代码完全正确。用这套工具不会让你完全放手,只是把 debug 的环节从"改 prompt 重跑"变成了"review 代码"——后者通常更高效。
实测效果: - 5 万字文本 → 约 2.5 小时音频 - 纯 CPU 推理,不需要显卡 - 8 种音色切换(Kokoro 引擎) - 中英混合朗读自然 - 中途停止后可以从断点继续
很多人第一次接触语音合成(TTS),想到的是讯飞、百度这些云端API。但仔细一算:调用一次要花钱、网不好会卡顿、隐私数据还要传出去——这对于普通用户来说,门槛实在太高了。
浙公网安备 33010602011771号