又一家 AI 语音调研初创融资,Miravoice 融资 630 万美元;小米发布 Midasheng:支持长音频合成与全场景语音-音效统一建模丨日报

 

998a4ed0f17cd5097cfdaa735a6d9b29

 


开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的* 观点* 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@koki、@鲍勃

01 有话题的技术

1、智谱正式发布 GLM-5.1,7540 亿参数 MIT 开源

d9578180e993810eaf5126ed3a180881

 

1702667e572a75366fb62831ceb8b25e

 

35337014e364a1c910dbe79c64ba726f

 

 

智谱正式发布并开源了其最新一代旗舰模型 GLM-5.1,该模型专为 Agentic 工程设计,拥有 7540 亿 参数并以 MIT License 开源。

 

GLM-5.1 支持文本输入输出、200K 上下文窗口及 128K 最大输出,在综合能力和编程上对齐 Claude Opus,并在 SWE-Bench Pro 基准测试中以 58.4 的成绩创下全球最佳记录。

 

该模型的核心突破在于其显著提升的长程任务能力,能够在单次任务中自主工作长达 8 小时,通过数百轮迭代和数千次工具调用持续优化结果。

 

例如,在 VectorDBBench 中完成超 655 轮迭代,实现约 6 倍 的 QPS 提升;在 KernelBench Level 3 达到 3.6 倍 加速比;以及耗时 8 小时 从零构建完整的 Linux 桌面系统。

 

HuggingFace 链接:

 

https://huggingface.co/zai-org/GLM-5.1

 

(@橘鸦 Juya)

 
2、ACE-Step v1.5 发布:LM+DiT 架构支持 10 分钟音频生成,VRAM 门槛降至 4GB

ffd3d8feaa6c861ce1deeaf950853a2a

 

 

开源音乐基础模型 ACE-Step v1.5 通过 LM+DiT 混合架构实现了商业级音频生成质量,并显著降低了硬件运行门槛。该模型支持在消费级显卡上快速生成长达 10 分钟的音频,并集成了多种音频编辑与 LoRA 个性化能力。

 

  • LM + DiT 混合架构:语言模型(LM)充当全能规划器,通过 Chain-of-Thought(CoT)合成元数据、歌词和标题蓝图,指导扩散变换器(DiT)执行音频合成,支持从短循环到 10 分钟作品的尺度扩展。

  • 低延迟消费级部署:模型运行显存(VRAM)需求低于 4GB;在 RTX 3090 上单曲生成耗时低于 10 秒(A100 低于 2 秒)。

  • 内生强化学习对齐:采用仅依赖模型内部机制的内生强化学习(Intrinsic RL)进行对齐,不引入外部奖励模型或人类偏好,从而消

  • 多维度音频编辑接口:统一了风格控制与编辑功能,支持音频重绘(Repainting)、人声转 BGM(Vocal-to-BGM)及封面生成,支持超过 50 种语言。

  • 轻量级 LoRA 个性化:支持用户通过少量歌曲样本训练 LoRA 权重,实现特定音乐风格或创作者特征的快速迁移。

 

GitHub 链接:

 

https://github.com/ace-step/ACE-Step-1.5

 

HuggingFace 链接:

 

https://huggingface.co/collections/ACE-Step/ace-step-15

 

(@GitHub)

 
3、小米发布 Xiaomi Any2Speech 与 Midasheng:支持 10 分钟长音频合成与全场景语音-音效统一建模

小米大模型应用团队推出两项音频生成框架:Xiaomi Any2Speech 侧重长文本及多角色叙事,支持单次推理生成 10 分钟连贯音频;

 

Midasheng-audio-generate 侧重声效重建,通过自然语言驱动语音、音乐与环境音的统一合成。该方案标志着语音合成从单纯的文字转语音(TTS)转向全场景语义建模。

 

  • GST (Global-Sentence-Token) 三层标注体系:模型通过 Global 层把控场景定位与整体情绪Sentence 层调节语气、语速及表达意图Token 层精准处理重音、多音字及呼吸声/笑声等真人表达细节,实现叙事逻辑与声学空间的深度耦合。

  • Labeling over Filtering 训练策略:摒弃传统 TTS 过滤嘈杂数据的做法,将多人重叠、低质量素材通过 GST 体系转化为训练特征。模型借此习得从复杂背景中提取并泛化特定声学效果(如磁带损耗感、旧广播感)的能力,而非单纯合成「干净」的人声。

  • 基于 Flow Matching 的非 VAE 统一分词器:Midasheng 架构放弃了会损失语义信息的 VAE 声学分词器,采用统一的语义-声学表示(Midasheng tokenizer)。该架构支持对整体描述、说话人风格、音效、音乐、转写五个字段进行解耦控制,实现声画同频的沉浸式音频生成。

 

(@量子位)

 


02 有亮点的产品

1、AI 语音调研 Miravoice 获 630 万美元种子轮融资:推出支持 120+ 问题、单次通话超 40 分钟的 AI 语音调查智能体

f3a4c5bff00f144d978d1160608dd709

 

 

Leybzon、Nishant Jain 和 Shreyas Tirumala 是 Miravoice 的联合创始人。

 

Miravoice 宣布完成 630 万美元种子轮融资,由 Unusual Ventures 领投。该公司开发了专为长篇、高精度电话调查设计的 AI 智能体,旨在取代传统呼叫中心,通过结构化对话实现大规模定量研究数据的自动化采集

 

  • 支持超长时长与复杂题型:AI 智能体可执行单次超过 40 分钟的语音访谈,覆盖** 120 个以上的问题**,支持包括开放式回答、李克特量表(Likert scales)、数值输入及矩阵题在内的多种复杂定量研究题型。

  • 结构化对话约束与防幻觉机制:区别于通用对话 AI,该智能体专注于预设问题的结构化访谈,通过逻辑约束确保完整覆盖问卷所有要点,并宣称通过特定架构消除了响应过程中的 hallucination(幻觉)问题。

  • 复杂交互处理能力:具备处理人类对话中常见的中断、停顿等「非理想状态」的能力,确保访谈流程的连续性,并支持多语种原生交互。

  • 自动化部署流程:用户仅需通过构建问卷并关联电话号码即可启动受训智能体,将原本由呼叫中心承担的数周采集周期缩短至数小时

  • 高并发处理与按量计费:2025 年通话量已突破 10 万次,支持从呼出到呼入的双向处理;采用基于通话时长的计费模式(Usage-based billing)。

 

( @crunchbase)

 
2、Sand.ai 完成逾 5000 万美元融资

据知情人士透露,Video Agent 赛道明星公司 Sand.ai 近期完成新一轮约 5000 万美元融资

 

Sand.ai 旗下产品** VidMuse 上线仅 2 个月**,年度经常性收入(ARR)即突破千万美元,成为 Video Agent 赛道达成这一商业化里程碑速度最快的产品。

 

VidMuse 首创 「Music in Video Out」(音乐生视频)范式 ,以音频驱动视频创作为核心,底层技术来自 Sand.ai 自研的音视频原生架构。

 

( @APPSO)

 
3、扣子推出 Agent World,为 AI 智能体配备云设备与专属邮箱

139740121dbf4aaa314552339a73b897

 

 

扣子(Coze)昨天正式发布 2.5 版本,推出「Agent World」全新生态体系,围绕云设备、技能扩展与 AI 智能体人格三大方向进行全面升级。

 

  • 云设备方面,AI 智能体获得独立云电脑与云手机,可在真实系统环境中运行脚本、操作 App,并通过实时推流向用户同步屏幕画面,任务全程在后台独立运行;

  • 技能层面,内置基于 Seedance 2.0 的视频创作 AI 智能体,扣子编程 CLI 同步上线;技能商店引入法律、金融等行业专业 Skills,其中金融 Skill 与国信证券联合开发;

  • 记忆与身份方面,AI 智能体采用全新记忆层架构,可跨渠道共享记忆并按 Session 隔离权限,同时配备独立专属邮箱用于注册第三方平台及对外通信;

  • 生态层面, 推出「虾评」技能评测广场、「Agent Link」社交站点及 PlayLab 桌游实验室,构建 AI 智能体互动学习的开放社区。目前部分功能处于限时体验阶段,用户可通过 coze.cn 或扣子 App 进行体验。

 

( @APPSO)

 


03 有态度的观点

1、AI 界再来新词:被淘汰恐惧 FOBO

据《财富》杂志结合麻省理工学院(MIT)的最新研究发布报告,指出人工智能对就业市场的自动化冲击呈渐进式发展,且正引发职场群体日益加剧的 「被淘汰恐惧(FOBO)」

 

据悉,FOBO 全称为 Fear of Becoming Obsolete(对被淘汰的恐惧)。与传统「失业焦虑」不同,这种情绪更多指向「自己会变得无关紧要」

 

MIT 研究团队在最新报告《Crashing Waves vs。 Rising Tides》中,对包括 GPT-5、Gemini 2.5 Pro 及 DeepSeek R1 在内的 40 余款前沿大模型进行了 1.7 万次人工评估。测试结果表明,AI 目前已能以最低合格标准完成 50% 至 75% 的文本类工作任务

 

研究指出,AI 任务失败率正以每 2 至 3 年减半的速度下降;按此趋势测算,至 2029 年,AI 预计能以 80% 至 95% 的成功率完成大部分常规文本工作。职场群体的危机感已反映在统计数据中。毕马威(KPMG)数据显示,目前有 40% 的员工将 AI 引发的失业视为核心担忧,该比例同比激增近一倍。

 

安永(EY)全球首席创新官 Joe Depa 证实了这一职场分化现象,他表示企业内部初级员工对 AI 工具的采用率极高,而部分资深软件工程师因抗拒使用 AI,其实际生产力已被借助 AI 的同行拉开 10 倍至 20 倍的差距

 

(@APPSO)

 

image

 

04b45f0f17d5a620dc9e0029116477d8

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 


 

7b381729b07ec06bb7cf5c16134e26c9

 


作者提示: 个人观点,仅供参考​

posted @ 2026-04-09 21:07  RTE开发者社区  阅读(0)  评论(0)    收藏  举报