又一家 AI 语音调研初创融资，Miravoice 融资 630 万美元；小米发布 Midasheng：支持长音频合成与全场景语音-音效统一建模丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的* 观点* 」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、智谱正式发布 GLM-5.1，7540 亿参数 MIT 开源

智谱正式发布并开源了其最新一代旗舰模型 GLM-5.1，该模型专为 Agentic 工程设计，拥有 7540 亿 参数并以 MIT License 开源。

GLM-5.1 支持文本输入输出、200K 上下文窗口及 128K 最大输出，在综合能力和编程上对齐 Claude Opus，并在 SWE-Bench Pro 基准测试中以 58.4 的成绩创下全球最佳记录。

该模型的核心突破在于其显著提升的长程任务能力，能够在单次任务中自主工作长达 8 小时，通过数百轮迭代和数千次工具调用持续优化结果。

例如，在 VectorDBBench 中完成超 655 轮迭代，实现约 6 倍 的 QPS 提升；在 KernelBench Level 3 达到 3.6 倍 加速比；以及耗时 8 小时 从零构建完整的 Linux 桌面系统。

HuggingFace 链接：

https://huggingface.co/zai-org/GLM-5.1

（@橘鸦 Juya）

2、ACE-Step v1.5 发布：LM+DiT 架构支持 10 分钟音频生成，VRAM 门槛降至 4GB

开源音乐基础模型 ACE-Step v1.5 通过 LM+DiT 混合架构实现了商业级音频生成质量，并显著降低了硬件运行门槛。该模型支持在消费级显卡上快速生成长达 10 分钟的音频，并集成了多种音频编辑与 LoRA 个性化能力。

LM + DiT 混合架构：语言模型（LM）充当全能规划器，通过 Chain-of-Thought（CoT）合成元数据、歌词和标题蓝图，指导扩散变换器（DiT）执行音频合成，支持从短循环到 10 分钟作品的尺度扩展。
低延迟消费级部署：模型运行显存（VRAM）需求低于 4GB；在 RTX 3090 上单曲生成耗时低于 10 秒（A100 低于 2 秒）。
内生强化学习对齐：采用仅依赖模型内部机制的内生强化学习（Intrinsic RL）进行对齐，不引入外部奖励模型或人类偏好，从而消
多维度音频编辑接口：统一了风格控制与编辑功能，支持音频重绘（Repainting）、人声转 BGM（Vocal-to-BGM）及封面生成，支持超过 50 种语言。
轻量级 LoRA 个性化：支持用户通过少量歌曲样本训练 LoRA 权重，实现特定音乐风格或创作者特征的快速迁移。

GitHub 链接：

https://github.com/ace-step/ACE-Step-1.5

HuggingFace 链接：

https://huggingface.co/collections/ACE-Step/ace-step-15

（@GitHub）

3、小米发布 Xiaomi Any2Speech 与 Midasheng：支持 10 分钟长音频合成与全场景语音-音效统一建模

小米大模型应用团队推出两项音频生成框架：Xiaomi Any2Speech 侧重长文本及多角色叙事，支持单次推理生成 10 分钟连贯音频；

Midasheng-audio-generate 侧重声效重建，通过自然语言驱动语音、音乐与环境音的统一合成。该方案标志着语音合成从单纯的文字转语音（TTS）转向全场景语义建模。

GST （Global-Sentence-Token）三层标注体系：模型通过 Global 层把控场景定位与整体情绪，Sentence 层调节语气、语速及表达意图，Token 层精准处理重音、多音字及呼吸声/笑声等真人表达细节，实现叙事逻辑与声学空间的深度耦合。
Labeling over Filtering 训练策略：摒弃传统 TTS 过滤嘈杂数据的做法，将多人重叠、低质量素材通过 GST 体系转化为训练特征。模型借此习得从复杂背景中提取并泛化特定声学效果（如磁带损耗感、旧广播感）的能力，而非单纯合成「干净」的人声。
基于 Flow Matching 的非 VAE 统一分词器：Midasheng 架构放弃了会损失语义信息的 VAE 声学分词器，采用统一的语义-声学表示（Midasheng tokenizer）。该架构支持对整体描述、说话人风格、音效、音乐、转写五个字段进行解耦控制，实现声画同频的沉浸式音频生成。

（@量子位）

02 有亮点的产品

1、AI 语音调研 Miravoice 获 630 万美元种子轮融资：推出支持 120+ 问题、单次通话超 40 分钟的 AI 语音调查智能体

Leybzon、Nishant Jain 和 Shreyas Tirumala 是 Miravoice 的联合创始人。

Miravoice 宣布完成 630 万美元种子轮融资，由 Unusual Ventures 领投。该公司开发了专为长篇、高精度电话调查设计的 AI 智能体，旨在取代传统呼叫中心，通过结构化对话实现大规模定量研究数据的自动化采集。

支持超长时长与复杂题型：AI 智能体可执行单次超过 40 分钟的语音访谈，覆盖** 120 个以上的问题**，支持包括开放式回答、李克特量表（Likert scales）、数值输入及矩阵题在内的多种复杂定量研究题型。
结构化对话约束与防幻觉机制：区别于通用对话 AI，该智能体专注于预设问题的结构化访谈，通过逻辑约束确保完整覆盖问卷所有要点，并宣称通过特定架构消除了响应过程中的 hallucination（幻觉）问题。
复杂交互处理能力：具备处理人类对话中常见的中断、停顿等「非理想状态」的能力，确保访谈流程的连续性，并支持多语种原生交互。
自动化部署流程：用户仅需通过构建问卷并关联电话号码即可启动受训智能体，将原本由呼叫中心承担的数周采集周期缩短至数小时。
高并发处理与按量计费：2025 年通话量已突破 10 万次，支持从呼出到呼入的双向处理；采用基于通话时长的计费模式（Usage-based billing）。

( @crunchbase)

2、Sand.ai 完成逾 5000 万美元融资

据知情人士透露，Video Agent 赛道明星公司 Sand.ai 近期完成新一轮约 5000 万美元融资。

Sand.ai 旗下产品** VidMuse 上线仅 2 个月**，年度经常性收入（ARR）即突破千万美元，成为 Video Agent 赛道达成这一商业化里程碑速度最快的产品。

VidMuse 首创 「Music in Video Out」（音乐生视频）范式 ，以音频驱动视频创作为核心，底层技术来自 Sand.ai 自研的音视频原生架构。

( @APPSO)

3、扣子推出 Agent World，为 AI 智能体配备云设备与专属邮箱

扣子（Coze）昨天正式发布 2.5 版本，推出「Agent World」全新生态体系，围绕云设备、技能扩展与 AI 智能体人格三大方向进行全面升级。

云设备方面，AI 智能体获得独立云电脑与云手机，可在真实系统环境中运行脚本、操作 App，并通过实时推流向用户同步屏幕画面，任务全程在后台独立运行；
技能层面，内置基于 Seedance 2.0 的视频创作 AI 智能体，扣子编程 CLI 同步上线；技能商店引入法律、金融等行业专业 Skills，其中金融 Skill 与国信证券联合开发；
记忆与身份方面，AI 智能体采用全新记忆层架构，可跨渠道共享记忆并按 Session 隔离权限，同时配备独立专属邮箱用于注册第三方平台及对外通信；
生态层面， 推出「虾评」技能评测广场、「Agent Link」社交站点及 PlayLab 桌游实验室，构建 AI 智能体互动学习的开放社区。目前部分功能处于限时体验阶段，用户可通过 coze.cn 或扣子 App 进行体验。

( @APPSO)

03 有态度的观点

1、AI 界再来新词：被淘汰恐惧 FOBO

据《财富》杂志结合麻省理工学院（MIT）的最新研究发布报告，指出人工智能对就业市场的自动化冲击呈渐进式发展，且正引发职场群体日益加剧的 「被淘汰恐惧（FOBO）」 。

据悉，FOBO 全称为 Fear of Becoming Obsolete（对被淘汰的恐惧）。与传统「失业焦虑」不同，这种情绪更多指向「自己会变得无关紧要」 。

MIT 研究团队在最新报告《Crashing Waves vs。 Rising Tides》中，对包括 GPT-5、Gemini 2.5 Pro 及 DeepSeek R1 在内的 40 余款前沿大模型进行了 1.7 万次人工评估。测试结果表明，AI 目前已能以最低合格标准完成 50% 至 75% 的文本类工作任务 。

研究指出，AI 任务失败率正以每 2 至 3 年减半的速度下降；按此趋势测算，至 2029 年，AI 预计能以 80% 至 95% 的成功率完成大部分常规文本工作。职场群体的危机感已反映在统计数据中。毕马威（KPMG）数据显示，目前有 40% 的员工将 AI 引发的失业视为核心担忧，该比例同比激增近一倍。

安永（EY）全球首席创新官 Joe Depa 证实了这一职场分化现象，他表示企业内部初级员工对 AI 工具的采用率极高，而部分资深软件工程师因抗拒使用 AI，其实际生产力已被借助 AI 的同行拉开 10 倍至 20 倍的差距。

(@APPSO)

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

posted @ 2026-04-09 21:07 RTE开发者社区阅读(81) 评论(0) 收藏举报

刷新页面返回顶部