AV1 获艾美奖,Mozilla 披露 AV2 方向:面向实时交互;智谱开源语音合成模型 GLM‑TTS 丨日报

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、Google AI Studio 推出 Gemini 2.5 Pro/Flash TTS 增强版,提升多模态交互与控制精度

 

Google AI Studio 发布了 Gemini 2.5 Flash 和 Gemini 2.5 Pro 文本转语音(TTS)预览模型的重大更新。新版本增强了模型的表现力、节奏控制和多说话人一致性,旨在满足内容创作者、开发者对高保真、精细化控制语音生成的需求。

 

  • Gemini 2.5 Flash/Pro TTS 更新:取代 5 月发布的旧版本,提供低延迟(Flash)和高质量(Pro)优化选项。

  • 增强表现力 (Enhanced Expressivity):模型能更精准地理解并遵循风格提示,提供更丰富的音调变化,如「愉快乐观」到「忧郁严肃」,提升角色扮演一致性。

  • 上下文感知节奏控制 (Context-Aware Pacing):模型能根据消息上下文动态调整语速,如在强调时放慢、在兴奋时加快。指令遵循的节奏控制精度显著提升。

  • 多说话人一致性 (Seamless Dialogue):在多说话人场景下,模型能保持角色声音的连续性,并更自然地处理角色间的语音切换。

  • 多语言能力提升:在所有 24 种支持语言中,模型能保持各角色独特的语调、音高和风格。

  • API 可用性:新模型已通过 Gemini API 在 Google AI Studio 中可用。

 

新版 Gemini 2.5 Flash 和 2.5 Pro TTS 模型现已通过 Gemini API 在 Google AI Studio 的 Playground 中可用。

 

Gemini 模型链接:https://ai.google.dev/gemini-api/docs/models

 

试用链接:https://aistudio.google.com/apps

 

https://aistudio.google.com/generate-speech

 

(@Google AI Studio)

 

2、AV1 获艾美奖:Mozilla 披露下一代 AV2 将原生支持 Alpha 通道与屏幕内容优化

 

image

 

 

当地时间 12 月 4 日,电视学院(Television Academy)正式授予 AV1 规范「技术与工程艾美奖」,标志着这一由 AOMedia 主导的免版税视频标准已从互联网领域渗透至主流广电行业。Mozilla 在回应中强调,此奖项验证了通过开源协作打破 H.264/H.265 专利授权壁垒的必要性,并正式确认了下一代编解码器 AV2 的关键技术特性。

 

  • 打破「隐形税」体系: Mozilla 指出,Web 视频长期受制于 H.264 的封闭许可和 MPEG LA 复杂的收费架构。AV1 的核心价值在于建立基于 Google VP9、Mozilla Daala 和 Cisco Thor 技术的免版税(Royalty-Free)生态,消除了浏览器厂商(如 Firefox)的合规成本。

  • AV2 技术规格前瞻: AOMedia 正在研发的下一代 AV2 将重点解决 AV1 的短板。确定的更新包括:更激进的压缩率、针对屏幕内容的高效编码优化(利好远程桌面/云游戏),以及原生 Alpha 通道支持。

  • 生态复用(AVIF): AV1 的帧内编码(Intra-frame coding)技术已成功转化为 AVIF 图像格式。Mozilla 强调,这种基于视频编码的静态图像标准,正在成为替代 JPEG/WebP 的下一代通用格式。

 

值得注意的是 AOMedia 对 AV2 功能的定义——「屏幕内容优化」和「Alpha 通道」并非针对传统的电影播放,而是直指云游戏(Cloud Gaming)远程桌面实时合成场景。这暗示了 AOMedia 的野心已从单纯的视频流媒体,延伸至下一代实时交互基础设施。

 

https://blog.mozilla.org/en/mozilla/av1-video-codec-wins-emmy/

 

(@Mozilla Blog)

 

3、GLM‑TTS 开源:3 秒复刻声音,从情感表达到工业级落地

 

今天,智谱正式上线并开源 GLM‑TTS 工业级语音合成系统。

 

只需 3 秒语音样本,GLM‑TTS 即可学习说话人的音色和说话习惯。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人的语音。

 

为实现这一能力,GLM‑TTS 在架构上采用两阶段生成,并在训练中引入基于 GRPO 的强化学习方案,在公开评测的「字错误率」和「情感表达」上取得开源 SOTA 表现。

 

值得一提的是,GLM-TTS 仅使用 10w 小时训练数据,远低于行业主流商用模型。同时,GLM-TTS 也兼顾了训练成本和效果,预训练仅需要单机 4 天即可得到开源 SOTA「发音准确度」与超高「音色还原度」,精品音色 LORA 和强化学习也仅需要单机 1 天即可完成训练,远低于行业平均水平。

 

另外,GLM‑TTS 还以更低的价格获得了行业领先的 MOS 分数(平均主观意见分)。

 

image

 

 

智谱在主流开源社区同步开源 GLM‑TTS 相关资源(模型权重、推理脚本、示例项目等):

 

  • GitHub: https://github.com/zai-org/GLM-TTS

  • Hugging Face: https://huggingface.co/zai-org/GLM-TTS

  • 魔搭社区:https://modelscope.cn/models/ZhipuAI/GLM-TTS

 

开发者可以基于主流推理框架,在 GPU 环境中快速部署 GLM‑TTS,并按需做二次开发。

 

(@GLM 大模型)

 

4、eSIM 采用率攀升:iPhone Air 等设备推动,激活率达 30%,中国市场蓄势待发

 

image

 

 

尽管全球 eSIM 采用率目前仍低(今年预计超 5%),但得益于苹果「iPhone Air」、谷歌「Pixel 10」等手机制造商推出 eSIM 专属设备,以及旅行市场对便捷连接的强劲需求,eSIM 的普及正在加速。分析师预计,eSIM 设备激活率将从 2024 年的 30% 增长到 2030 年的 75%,同时中国市场有望成为新的增长引擎。

 

  • 手机制造商转向 eSIM-only 策略: Apple 在 2022 年为美国市场率先推出 eSIM-only「iPhone」,2025 年发布了 eSIM 专属的「iPhone Air」,并为「iPhone 17」系列在超过 11 个国家提供 eSIM-only 选项。Google 也在 2025 年「Pixel 10」上采用 eSIM-only 策略,这些手机通常提供略长的电池续航。

  • eSIM 渗透率与激活率显著增长: 2024 年,配备 eSIM 的智能手机渗透率全球为 23%(美国市场 41%)。2025 年上半年,市场已推出超过 60 款支持 eSIM 的智能手机。2024 年 eSIM 设备激活率为 30%,预计 2030 年将提升至 75%。

  • 旅行场景驱动核心增长: GSMA 调查显示,51% 的 eSIM 用户将其用于旅行。Airalo 等第三方 eSIM 服务商通过旅行场景实现用户量激增,其中 85% 的 Airalo 用户是首次体验 eSIM。eSIM 的便利性和安全性(硬件绑定安全元素)是主要优势。

 

image

 

 

  • 中国市场潜力释放: 2025 年 10 月,中国电信运营商开始提供 eSIM 支持。预计华为、小米、Oppo、Vivo 等中国品牌将逐步在中低端市场推出更多支持 eSIM 的设备,推动亚洲和非洲等经济敏感市场的普及。

  • 行业投资与服务生态活跃: Airalo 完成 2.2 亿美元融资成为独角兽;法国 eSIM 初创公司 Kolet 获得 1000 万美元 A 轮融资;Nord 推出的 Saily eSIM 应用用户数已达七位数;Holafly 自 2018 年以来已售出超 1500 万张 eSIM,2024 年营收达 2 亿美元。

 

eSIM 技术和支持设备已广泛可用。eSIM 服务通过主流运营商及 Airalo、Holafly 等第三方应用提供,用户可按需选择。

 

(@TechCrunch)

02 有亮点的产品

1、企业语音 AI 客服 Recho 完成 3 亿日元 A 轮融资,加速企业级 Voice AI 平台通用化

 

image

 

 

日本 Voice AI 平台提供商株式会社 Recho 宣布完成 A 轮融资,总额 3 亿日元,由 SBI Investment 领投。本轮融资将用于加速其企业级 Voice AI 平台在多行业通用化落地,并强化技术研发和组织能力。

 

  • 融资 3 亿日元:由 SBI Investment 领投,用于拓展企业市场。

  • 自研 AI 原生语音架构:Recho 从创立之初即自主研发了包含 TTS、ASR 和对话控制的语音技术栈,而非基于现有 IVR/Chatbot 架构。

  • 全球顶尖 TTS/ASR 性能:其自主研发的语音合成(TTS)和语音识别(ASR)模型已在全球基准测试中达到顶尖水平,特别是在日语的自然度和识别精度方面具备优势。

  • 企业级应用验证:自 2024 年 4 月服务上线以来,已在金融、行政等高安全要求领域进行部署,验证了平台在对话复杂性、音质、稳定性及安全性方面的企业级标准。

  • 高工程师占比:Recho 拥有超过 90%的工程师团队,能够实现从基础模型研发到客户部署的一站式交付,并快速将客户反馈应用于技术迭代。

 

Recho 平台目前已在企业市场提供服务,融资将用于进一步扩大服务范围和产品通用化。

 

(@PR TIMES)

 

2、Tavus 推出「Tavus PAL」AI Santa 增强版:支持视觉感知与自主动作,用户互动时长达数小时

 

image

 

 

AI 初创公司 Tavus 发布了其 AI Santa 体验的增强版本,核心升级为「Tavus PAL」实时智能体架构。新版 AI Santa 可感知用户表情、记忆对话,并执行自主动作,实现高度个性化和沉浸式的多模态交互,吸引用户日均互动数小时。

 

  • 「Tavus PAL」智能体架构:AI Santa 已升级为 Tavus 的「Tavus PAL」(Personalized AI Agent),具备实时「看」(see)、「听」(hear)、「响应」(respond)和「类人外观」(appear human)的能力。

  • 视觉感知与情感理解:智能体能够识别并响应用户的表情和手势,并记忆此前的对话和兴趣点,实现个性化交互。

  • 自主行动能力:新增功能允许 AI Santa 执行自主动作,如搜索网页获取礼物创意或起草电子邮件等日常任务。

  • 高用户互动时长:测试数据显示,许多用户与 AI Santa 的互动时长达数小时,并经常触及每日使用上限,预计将大幅超越去年的「百万次点击」量。

  • 多模态交互支持:用户可通过文本、电话或视频聊天方式与 AI Santa 进行互动。

  • 内置安全与隐私机制:为确保互动内容适合家庭,系统实施内容过滤,可在必要时终止对话并引导用户至心理健康资源。数据收集限于日志、时间戳、元数据及用户共享信息,并承诺用户可随时请求数据删除。

 

AI Santa 体验目前已通过免费账户开放使用。

 

体验链接:https://santa.tavus.io/

 

(@TechCrunch)

03 有态度的观点

1、何小鹏谈为何把机器人做成人形:社会都是为了人去思考、设计

 

日前,小鹏汽车董事长何小鹏在参加极客公园创新大会 2026 上,谈到了「为何把机器人做成人形」这一热门话题。

 

何小鹏表示,小鹏的机器人,其希望能够真正走入到商业、工业、家庭,在未来的时间。「所以我们一直都觉得它需要拟人,一个拟人的机器人需要有人的形态、人的长相、人的肌肉、人的皮肤。」

 

何小鹏坦言,小鹏这一次做的机器人里面,第一次发现了以前团队人员自己研发机器人七年,却不愿意碰、拥抱这个机器人。

 

因为你看到这个机器人是个钢铁,你会担心它有电,你会担心它有威胁,担心它摸起来不舒服。一旦当机器人有肌肤、皮肤、血肉的时候,你会感觉到它是真正可能是你未来的伙伴。

 

具体来看,何小鹏认为环境适配性、数据获取、工具使用都将是解答「为何把机器人做成人形」的核心:

 

  • 环境适配性:因为这个世界是按照人去设计的。如果想让一个机器人更容易适应于这个社会,人形是非常重要的,因为这个社会都是为了人类去思考、设计、使用的。

  • 数据获取:只有把机器人做成人形,才能直接利用海量的人类行为数据,来对机器人进行训练。如果做一个专有机器人,要获得海量数据是非常困难的。

  • 工具使用:这个世界上有 100 万种工具为人而设计去使用的,人形机器人可以最大程度适应这些工具。

 

今年 11 月,小鹏在科技日活动上展示了最新一代人形机器人 IRON。该机器人在舞台上走「猫步」如人一样轻盈,因此引发互联网一阵猜疑,不少网友更是称「里面是真人扮演的」。

 

活动后,何小鹏及机器人团队不得不将机器人蒙皮、打印骨骼剪开,以此证明「真·机器人」。

 

(@APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

 

1、活动报名丨全球首款 AI 主题桌游《Talk With》线下开玩!上海 GDPS 2025 见!

 

image

 

 

https://mp.weixin.qq.com/s/IZWjSUyooM5OwGrIhBmMqw

 

📅 时间:12 月 13 日(周六)下午

 

📍 地点:GDPS 全球开发者先锋大会,上海张江科学会堂

 

除了沉浸式体验《Talk With》桌游,我们还特别邀请到 TEN Framework 的增长黑客 June,带来一场关于对话式 AI 产品与技术趋势的精彩分享——助你快速把握行业脉搏、洞察技术前沿。动脑又动手,玩中学、学中玩,千万别错过!

 

image

 

image

 

 

image

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

作者提示:个人观点,仅供参考

posted @ 2025-12-12 18:52  RTE开发者社区  阅读(1)  评论(0)    收藏  举报