Agora Agents SDK:十行代码、15 分钟构建语音智能体;Seeed Studio 发布可穿戴 AI 录音器,双麦克风阵列+自定义 API 接入丨日报

开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Hugging Face 联合 Cerebras 推出开源实时语音方案:基于 Gemma 4 31B 与级联架构,吞吐量达 1800 tok/s
Hugging Face 联合 Cerebras 推出了一套完全开源、模块化的级联实时语音转语音技术栈。该方案通过极致的硬件推理加速,解决了传统语音管道在 P95 阶段的长尾延迟瓶颈,可直接作为 OpenAI Realtime API 的开源替代方案,并已在万台具身智能设备上完成实证。
-
极速级联语音流水线:系统采用高度可插拔的模块化设计,音频输入先通过 Nvidia Parakeet 进行语音识别(推理延迟 80ms),再由语言模型生成文本,最后通过经 GGML 优化的 Qwen3TTS 输出语音(TTFA 仅为 120ms)。
-
1800 tok/s 语言模型推理:核心语言模型采用 Google DeepMind 的 Gemma 4 31B。在 Cerebras 晶圆级推理服务的支持下,其推理延迟控制在 300ms,吞吐量高达 1800 tok/s,因响应过快,开发团队甚至需在系统中人工注入延迟机制。
-
OpenAI 替代接口与完全开源:该技术栈全面开源,支持开发者对任一技术层进行审查、修改和扩展,可作为 OpenAI Realtime API 的开箱即用替代方案。
-
万台具身智能设备实证:该语音流水线已被部署于超过 10,000 台 Reachy Mini 机器人。在实际物理交互中,稳定的低延迟表现保证了具身智能对话的流畅度与实时性。
Demo:
https://huggingface.co/spaces/smolagents/hf-realtime-voice
( @andimarafioti@X)
2、Agora Agents SDK:十行代码、15 分钟构建语音智能体

Agora 宣布正式发布多语言支持的 Agora Agents SDK(提供 Python、Node.js 和 Go 版本),旨在简化基于其对话式 AI 引擎的语音智能体开发。该 SDK 通过高度封装的强类型构建器,将鉴权、会话管理和实时音视频通道管理等底层逻辑进行抽象,支持开发者通过数行代码快速组装并运行低延迟的实时语音交互管道。
-
强类型链式构建器 API:支持通过 。with_stt()、.with_llm() 与 。with_tts() 进行链式调用,实现语音转文本、大语言模型、文本转语音等模块的模块化组装,并在 IDE 中提供完整的自动补全与类型检查支持。
-
自动化双 Token 与鉴权管理:开发者仅需一次性配置 app_id 与 app_certificate,SDK 即可自动生成并管理对话式 AI 引擎鉴权 Token 和 RTC 频道 Token,且内置指数退避重试和连接超时控制。
-
完整的会话生命周期控制:将底层复杂的网络信令封装为面向对象的会话管理接口,开发者可直接通过 SDK 执行会话的创建、启动、停止、查询与恢复,无需在后端业务中手动维护设备 ID 与状态机逻辑。
-
灵活的模型接入与解耦设计:完全兼容现有的底层 REST API,支持开发者自由选择并配置自有的 STT、LLM、TTS 供应商(如 OpenAI、Google Gemini、Deepgram、阿里云、MiniMax 等)API 密钥,亦可无缝切换至 Agora 托管的第三方模型服务。
(@声网)
02 有亮点的产品
1、马斯克否认 SpaceX 研发 AI 手机:相关原型机报道「完全错误」

昨天,埃隆·马斯克在 X 发文评论一则关于「SpaceX 近日向投资者展示了一款类手机的 AI 设备原型」的传闻时,表示相关报道「完全错误」。
《华尔街日报》此前的报道称,SpaceX 在6 月启动创纪录IPO 前,向部分投资者展示了一款旨在重塑 AI 交互方式的硬件原型。
该设备机身比苹果 iPhone 更薄,预计搭载高通骁龙芯片,并运行集成 xAI 技术的专有操作系统。报道指出,马斯克长期愿景是拥有一款能承载其旗下业务技术的消费级平台,以减少对外部应用商店的依赖。
报道称 ,此前马斯克也曾多次对开发手机表达排斥,称这一想法让他**「生不如死」**,并在今年 2 月明确表示 SpaceX「没有在开发手机」。
( @APPSO)
2、VAST 完成超 10 亿元 A3 轮融资:Tripo P1.0 实现 2 秒生成免重拓扑 3D 网格,Project Eden 推进解耦式世界模型
AI 3D 大模型公司 VAST 完成超 10 亿元人民币 A3 战略轮融资,投资方包括吉利资本、四三九九、巨人网络等产业资本及多家地方基金。本轮融资将用于加速其 3D 资产生成大模型 Tripo 的管线集成,并推进实时可交互世界模型 Project Eden 的研发与场景落地。
-
Tripo P1.0 实现 2 秒级工业级网格生成:该模型可在 2 秒内直接输出拓扑干净、面数较低的网格模型,绕过传统的「高模生成—人工重拓扑—低模修整」管线,可直接导入游戏引擎进行生产。
-
3D 资产多层能力框架演进:VAST 将 3D 资产解构为视觉效果(皮)、拓扑结构(肉)、绑定与动画(骨)、交互逻辑(脑)四层。当前技术主要攻克了拓扑结构层,后续研发聚焦于四边形面、对称性及布线质量的持续优化。
-
Project Eden 采用状态与渲染解耦架构:该世界模型摒弃了纯视频帧压缩记忆路线,将底层世界状态(空间位置、记忆、物理推演)与视觉渲染解耦,通过中间层将状态转化为语义或画面条件再行渲染,以保障多用户在线时的长时、大空间一致性。
-
结构化空间数据训练方法:利用 3D 基础模型能力,从互联网视频中提取深度、相机位姿、几何轨迹等空间结构化信号,并结合游戏引擎的内部状态与渲染输出作为世界模型的训练数据。
如果说 AI 视频解决的是「生成一段画面」,AI 3D 要解决的则是**「生成一个可交互的数字对象」。前者更容易被用户感知,后者则是产业链里重要的生产资料。这也解释了为什么这一轮会有更多产业资本进入。他们关注的并不只是一个 AI 生成工具,更多还在于AI 开始理解、生产和推演三维世界之后,可能带来的内容生产、空间计算、智能制造和下一代交互平台**的变化。
(@极客公园)
3、阿里发布千问输入法 Mac 独立端:支持 10 分钟连续语音输入与 OS 级场景自适应润色
阿里推出千问输入法 Mac 独立客户端,将千问大模型能力直接嵌入 macOS 系统级输入层。该产品无需登录即可免费使用,旨在通过全局快捷唤起、高精度方言识别以及基于上下文的实时文本润色,将传统输入工具升级为系统级的智能表达助手。
-
OS 级全局快捷唤起:通过右侧 Option 键可在任意 macOS 软件(如微信、钉钉、Word、VS Code 等)中直接触发语音输入,无需切换软件或打开独立 App 窗口。
-
10 分钟连续输入与自动结构化:单次最长支持 10 分钟连续语音转文字。模型在后台进行口语去噪(自动过滤停顿词、重复词),并能将无序的口语输入自动转化为分段、分点的结构化排版文本。

-
活跃应用场景感知:具备应用环境自适应能力,可识别当前输入框所属的软件属性。在微信等社交软件中自动采用轻松自然的真人语气;在钉钉等办公软件中则自动优化为专业、正式的职场表述。
-
全场景纠错与方言兼容:支持重口音及地方方言输入。在键盘输入模式下,利用 AI 算法自动修正邻键误触、声母混淆、韵母漏打及拼音拼写错误,优化编辑距离。

官网链接:
https://ime.qianwen.com/
( @Z Potentials)
4、Seeed Studio 发布可穿戴 AI 录音器 reSpeaker Clip:双麦克风阵列+自定义 API 接入
Seeed Studio 推出开放式可穿戴 AI 录音设备 reSpeaker Clip,旨在为开发者和企业级用户提供软硬件解耦的语音 AI 硬件开发平台。该设备支持固件与多语言应用级 SDK,允许用户直接配置主流大语言模型与语音转文本 API,消除了传统 AI 硬件的强制订阅制约束。
-
双麦克风阵列与双模音频录制:配备双高性能 PDM 麦克风,支持 16kHz 采样率与 3 米 360° 全向拾音。提供保留原始音频细节的**「耐力模式」**(双通道录音,续航 18 小时)以及内置 MCU 降噪增益的「增强模式」(单声道高信噪比输出,续航 14 小时)。
-
2GB 本地存储与 Wi-Fi 6 传输:内置 2GB 闪存,支持离线保存高达 256 小时压缩音频,并集成 Wi-Fi 6 与蓝牙模块以实现音频数据的高速同步。
-
多层级 SDK 支持与软硬件解耦:提供基于 nRF Connect SDK 的固件级 SDK,以及 iOS Swift、Android Kotlin 和 Python 应用级 SDK,支持企业将硬件直接集成至私有部署的大语言模型与内部办公系统。
-
自主配置 API 规避订阅费:官方配套应用 SenseCraft Voice 允许用户输入 OpenAI、Google Gemini、Deepgram 等第三方主流 STT 与大语言模型提供商的 API 密钥,实现完全自主的转录与总结流程。
-
物理时间戳标记与 OLED 交互:配备 0.5 英寸(88*48)可编程超低功耗 OLED 屏幕与振动马达,支持通过物理按键在录音过程中一键添加时间戳标记,便于后续快速定位关键音频。
(@Seed 矽递科技)
03 有态度的观点
1、Palantir CEO 抨击 Token 计费:企业需要掌握生产资料所有权

据报道,Palantir CEO Alex Karp 在接受采访时猛烈抨击了 OpenAI 和 Anthropic 等 AI 实验室采用的 Token 计费模式,称这一结构正面临严重问题。
Karp 指出,随着 AI 使用成本飙升,企业界对这种「Token 最大化(tokenmaxxing)」的商业模式感到愈发沮丧。
Karp 认为,随着新模型比以往版本更加昂贵,企业正在从追求 Token 数量转向追求投资回报率(ROI)。这种转变促使一些企业开始采用开源权重模型,因为这类模型能以极低的成本完成类似任务。
Karp 表示,Palantir 与英伟达合作推进的开源方案才是解决之道,因为技术型客户希望对算力、模型和数据栈拥有完全的控制权。他们想知道自己拥有生产资料,而不是把这些资料转交给别人。
此前,Palantir 已在社交平台 X 上发布了一份关于 AI 主权重要性的「九点宣言」,明确反对 Token 计费模式,并鼓励企业维护自身数据的所有权。Karp 同时警告称,行业不应低估中国在 AI 模型领域的进展速度。目前,越来越多的业务部门正从使用通用 AI 模型转向构建和训练更高效的私有专有工具。
( @APPSO)


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考
浙公网安备 33010602011771号