Memories.ai发布AI穿戴硬件,基于自研视觉记忆引擎;gpt-realtime-1.5模型发布,优化语音工作流丨日报

开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、OpenAI 发布 gpt-realtime-1.5:优化语音工作流,字母数字转录准确率提升 10.23%
OpenAI 在 Realtime API 中正式上线 gpt-realtime-1.5 模型。该版本专门针对语音工作流进行底层优化,显著降低了响应延迟,并增强了工具调用与多语言处理能力。 此次更新直接改善了生产级语音 AI 的商业可用性,使智能体在企业知识检索和电话呼叫等场景中实现了亚秒级响应与高连通率。
-
内部基准评估全面提升: 模型在 Big Bench Audio 推理能力上提升 5%,字母数字转录准确率提高 10.23%,指令遵循率增加 7%。
-
增强语音工作流处理能力: 模型优化了低延迟性能,显著提升了对语音中断、快速演讲、领域特定术语及真实世界发音挑战(如独特口音)的处理能力。
-
AI 呼叫连接率与对话质量显著提升: 在 Genspark 的 AI 电话呼叫测试中,人类连接率从 43.7% 增至 66%;对话完成率提升至 38%;问题案例率从 4.2% 降至 2.1%;97.9% 的评分对话获满分。
-
实现亚秒级企业数据语音交互: Glean 利用模型构建实时语音助手,无需传输整个企业数据网络,即可在 CRM、代码库、票务及文档间实现亚秒级延迟的企业数据搜索与推理。
相关链接:https://developers.openai.com/api/docs/guides/realtime/
( @OpenAIDevs@X、@OpenAI Developers)
2、Gnani.ai 发布印度首个本土端到端语音 AI 模型,支持十余种印度语言

2026 年 2 月 18 日,人工智能企业 Gnani.ai 在印度人工智能影响力峰会上发布了号称印度首款本土语音到语音 AI 模型。该平台被称为「India Voice OS」,专为克服传统语音系统的延迟缺陷而设计,主要面向银行、电信、旅游和政府服务等高并发的实时交互行业。
与以往先转文本再生成语音的系统不同,该模型能直接处理并生成语音,从而大幅缩短响应时间。目前,系统支持十多种印度语言的无延迟对话。其核心优势在于拥有近 1400 万小时的本地专属训练数据,使得模型能够精准捕捉各种口音和方言多样性。
Gnani.ai 现已入选印度 AI 任务计划,其基础语音模型已在塔塔集团、马恒达、印度航空及多家大型银行等 200 多个组织中部署。针对金融等敏感领域的实际应用,该系统展现出以下核心特性:
-
多层安全与合规:系统内置异常检测和语音生物特征身份验证等防护机制,复杂问题可随时回退至人工代理。其数据处理严格符合 SOC 2 Type II、GDPR 及 ISO 等多项全球隐私标准。
-
显著降本增效:通过自动化处理重复性客服任务并赋能交叉销售,在部分应用场景中可将企业运营成本降低高达 90%,大幅减少了对庞大人工呼叫中心的依赖。
( @ETV Bharat)
3、Tavus 推出具备情绪感知能力的实时 AI 渲染模型 Phoenix-4
Tavus 发布了其最新一代实时人类渲染引擎 Phoenix-4。该模型突破了传统对话 AI 仅靠音频驱动面部动作的局限,首次将情绪状态控制、主动倾听行为及连续面部运动整合为一个统一的实时系统。
在具体表现上,Phoenix-4 能够在 1080p 高清画质下以 40fps 的帧率运行,实现毫秒级延迟的全双工交互。模型不仅能生成从整个头部、肩膀到细微眨眼动作的每一帧画面,还展现出以下核心能力:
-
显性情绪控制:支持快乐、悲伤、愤怒等 10 多种情绪状态的实时生成与无缝切换。
-
情境感知的主动倾听:在倾听状态下,模型会根据对话情境自然地做出点头肯定、皱眉担忧等反应,而非简单循环播放预录视频。
-
全方位面部与姿态控制:包括头部运动、眉毛、嘴唇及视线等均由模型依据上下文进行控制,能够产生自然的突发微表情。
技术层面上,Phoenix-4 采用了适合流媒体的音频特征提取与扩散生成架构,并以 3D 高斯溅射作为渲染引擎。这使得模型无需依赖刚性的网格控制,而是通过隐式表示直接控制 3D 模型,从而在保持低延迟的同时确保生成的稳定性与自然度。
当与负责对话节奏的 Sparrow-1 模型及负责多模态感知的 Raven-1 模型结合使用时,Phoenix-4 能够构建出完整的行为堆栈,让 AI 具备真实的同理心与存在感,从而在医疗、教育、销售等领域建立更深层次的用户信任。目前,开发者与用户已可通过 Tavus 平台、API 及 PALs 访问该模型,并支持创建专属的定制复刻形象。
相关链接:
https://phoenix.tavuslabs.org/
( @Tavus)
4、让 AI 拥有一张「脸」:Anam 发布 Cara-3 交互式人脸生成模型


Anam 公司发布了其最新的人脸生成模型 Cara-3。研究表明,人类大脑近一半用于视觉处理。相比纯文本或语音,具备情感信号的数字化人脸界面能显著降低交互门槛,提升产品的可访问性。
开发实时交互式数字人面临着对话逻辑、极低延迟及像素级视觉表现等多重工程挑战。为此,Cara-3 在视觉层采用了一种高效的两阶段管线架构:
-
音频到运动:利用基于流匹配新变体的扩散式 Transformer,将音频输入转化为头部位置、唇形和面部表情等运动特征。
-
运动到人脸:独立的渲染模型将上述运动特征应用到参考图像上生成视频帧,无需重新训练即可瞬间让任意静态人脸动起来。
该架构在 H200 GPU 上运行的首帧时间(TTFF)仅约 70 毫秒,实现了极高的扩展性与成本效益。同时,Anam 还开源了其数据清理管道主干 Metaxy。在第三方机构 Mabyduck 组织的独立盲测中,参与者对 Anam 交互式化身的整体偏好度最高,Cara-3 的平均得分比最接近的竞品高出 24%。测试结果还揭示,在交互环境中,化身的响应速度比纯粹的视觉质量更能决定用户的整体体验。
目前,Cara-3 已被广泛应用于语言学习、销售辅导和医疗技术等领域。 数据显示,部分客户在使用 Anam 化身取代传统界面后,转化率和留存率分别最高提升了 24% 和 44%。
用户现可在其官网免注册体验该模型,或通过官方 SDK 及多项集成工具进行开发部署。
相关链接:https://anam.ai/
( @BenCarr630567@X)
02 有亮点的产品
1、三星智能眼镜 2026 年问世:全面引入 AI 驱动的沉浸式交互
三星计划于 2026 年推出首款智能眼镜,以此进一步完善其 Galaxy 生态系统。根据披露的战略路线图,2026 年首发的智能眼镜包含 SMO2000P 和 SMO200J 两个变体型号。随后在 2027 年,三星将推出具备增强现实(AR)显示功能的第二代产品。
在核心硬件与生态融合方面,第一代产品搭载专为可穿戴设备优化的 Qualcomm AR1 芯片组,配备 1200 万像素摄像头与 155 mAh 轻量化电池。系统预计运行 Android XR 平台,可与三星智能手机及智能手表等设备无缝集成,实现接收通知、控制音乐等日常功能。
值得注意的是,人工智能在该智能眼镜中发挥着关键作用。依托三星 Gemini AI 平台,该设备通过先进且直观的交互方式大幅提升了产品的可用性。其核心的 AI 驱动功能主要包括:
-
语音识别:支持免提指令,使用户能够轻松、无缝地与设备进行互动。
-
情境性帮助:能够针对具体活动提供定制化支持,例如在会议期间提供适时的提醒,或在旅行时主动建议路线。
-
实时翻译:实现跨语言的无缝交流,该功能对全球旅行者和跨国专业人士尤为实用。
为确保智能眼镜兼具前沿技术与时尚感,三星还与 Gentle Monster 和 Warby Parker 等知名眼镜品牌达成了合作,力求在舒适度、耐用性和美观度上实现完美平衡,使其成为适合日常佩戴的实用配饰。
( @Geeky Gadgets)
2、加速构建「世界模型」:World Labs 获 10 亿美元融资
2026 年 2 月 18 日,科技创新企业 World Labs 公布了其关于 2026 年空间智能愿景的最新进展,并宣布公司已成功筹集高达 10 亿美元的新一轮融资。本次融资获得了多家行业巨头与顶级投资机构的参与支持,主要投资方包括 AMD、Autodesk、Emerson Collective、富达管理研究公司、英伟达以及 Sea 等。
在战略发展方向上,World Labs 明确提出,公司将集中资源加速推进其核心技术使命,即通过构建先进的「世界模型」来不断推动空间智能技术的前沿发展。该企业期望借助这些底层技术创新,在故事叙述、创意设计、机器人技术、科学发现以及更广泛的未知领域引发颠覆性的变革。
作为技术落地的首个里程碑,World Labs 重点介绍了其首款核心产品 Marble。该产品极大降低了三维场景的创作门槛,允许任何普通用户通过输入简单的图像、视频或文本,直接创建出具备空间连贯性、高保真度且持久存在的 3D 虚拟世界。目前,伴随巨额融资的完成与新产品的展示,该企业正面向全行业开放招募,邀请认同其空间智能愿景的人才加入团队共建未来。
( @World Labs)
3、Memories.ai 发布微型穿戴 AI 硬件原型 Project LUCI,接入 OpenClaw 与视觉记忆模型
2 月 19 日,Memories.ai 正式公布了名为「Project LUCI」的研究型原型项目,并已同步开放候补名单。该项目将 AI Pin 的穿戴形态与真实世界记忆深度融合,其核心理念是将人工智能从依赖手动输入提示词的传统工具,转变为真正了解用户的专属个人助手,开启持久化、具身人工智能的新阶段。
作为该项目的硬件核心,LUCI Pin 是一款体积仅有麦克风大小的微型便携式 AI 相机设备。在硬件配置上,它配备了磁吸连接与充电模块、智能控制按键,并全面内置了 Wi-Fi、蓝牙、麦克风和扬声器,能够为用户提供无缝的免提生活拍摄体验,随时捕捉真实世界的背景信息。
在软件与技术架构方面,Project LUCI 主要由以下核心模块构成:
-
LUCI AI App:作为用户的个性化 AI 伴侣交互界面。
-
视觉记忆引擎:由 Memories.ai 的大型视觉记忆模型提供底层处理支持。
-
智能体执行:接入 OpenClaw 框架,负责将捕捉到的记忆数据转化为现实世界中的具体行动。
在实际应用场景的规划中,LUCI 将针对不同群体提供差异化的助理服务。对于创业者而言,它可以充当现实生活中人际互动的个人 CRM(客户关系管理)系统;对于内容创作者,设备能够自动剪辑生成每日的视频日志与精彩片段;而对于普通用户,它则能够轻松捕捉并系统整理生活中的珍贵瞬间。
相关链接:https://memories.ai/luci/#waitlist
( @memories_ai@X)
4、获英伟达等 2 亿美元融资,PolyAI 推出 5 分钟构建 AI 语音客服新工具针对消费者在断电报修、就医咨询或餐厅订座等场景中长期遭遇的客服受阻、无人倾听等痛点,语音 AI 公司 PolyAI 提出将客户沟通体验提升至新高度的解决方案。作为英国增长最快的公司之一,PolyAI 目前已从英伟达、Khosla Ventures 及多家顶级风投机构处累计筹集了 2 亿美元资金。
该公司的语音智能体系统实际部署案例已达 3000 多个,服务对象涵盖万豪酒店、太平洋天然气和电力公司等知名企业,累计处理通话超过 5 亿次。数据显示,接入该系统的餐厅在 30 天内即可实现数千级别的营收增长。这主要得益于该系统全天候 24 小时的稳定运行,以及低于 2 秒的来电接听响应速度。
同时,该语音智能体还具备以下几项核心业务能力:
-
支持在 45 种以上的语言之间无缝切换;
-
独立处理支付与订单取消流程;
-
执行准确的用户身份验证;
-
为企业提供服务的追加销售功能。
为进一步降低使用门槛,PolyAI 推出了一款名为 Agent Studio Lite 的构建工具。**使用者仅需输入任意网址,该工具便能在 5 分钟内自动完成网站分析,并快速构建出一个可实际运作的语音智能体。**目前,该工具正向少数用户开放抢先体验,参与相关评论互动的用户即可加入候补名单,并获得为期 3 个月的免费使用权益。
相关链接:
https://poly.ai/gordon
( @polyaivoice@X)
03 有态度的观点
1、奥特曼:人类吃 20 年饭不如训练 AI
近期,在印度 Express Adda 的论坛上,Sam Altman 聊了很多 AI 话题,从 AGI 到中美 AI 竞争,再到数据中心用水问题。
在这次活动中,Altman 以轻松的幽默与观众互动,讨论了 AI 发展的各个方面。他表示:「AI 已经从能够做高中数学发展到推动人类知识的边界。」
Altman 认为,人工智能对工作的影响很难预测。「我喜欢读科技史。在工业革命时期,人们曾对工作感到恐慌,而他们惊人地错了。变革不会像社会上某些人预测的那样快。但最终人们会找到新的工作,」他说。
而整个讨论中,最火的那段是 Altman 回应 AI 能耗批评时说的:「人们总谈训练 AI 模型需要多少能源……但训练人类也需要大量能源,得花 20 年时间,消耗那么多食物,才能变聪明。」
但简单来说,Altman 觉得大家批评 AI 时,总拿「训练模型」的总能耗和人类「回答一个问题」的瞬间能耗比,这不公平。在他看来,AI 不是能源杀手,而是未来文明的必需品,就像电灯发明时也有人担心蜡烛业失业一样。
( @APPSO)


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考
浙公网安备 33010602011771号