腾讯混元世界模型 HY-World 1.5发布并开源:首个开源、实时交互、长期几何一致性的世界模型来了
腾讯混元世界模型 HY-World 1.5发布并开源:首个开源、实时交互、长期几何一致性的世界模型来了

今日,腾讯混元发布并开源 HY-World 1.5(WorldPlay),其支持实时交互生成、保持3D-致的世界模型。适用于风格多样的场景生成,支持3D重建、文本触发事件等多种应用。
HY-World 1.5到24 FPS 生成一致性的长时域流式视频,与现有技术相比表现优异。其在不同场景中表现出强大的泛化能力,支持真实世界和风格化环境中的第一人称和第三人称视角,实现了3D重建、可提示事件和无限世界扩展等多样化应用。

⭐核心能力是什么
HY-World 1.5(WorldPlay)是一种基于 streaming video diffusion 的实时交互式生成世界模型,采用 Next-Frames-Prediction 的视觉自回归训练范式,在实时交互与长时 3D 几何一致性之间取得平衡,有以下四大核心设计:
- 1.双分支动作表征实现精准控制;
- 2.上下文记忆重构机制保持几何一致性;
- 3.高效细粒度强化学习后训练框架来进一步增强生成视频的视觉质量和控制准确性;
- 4.上下文对齐蒸馏技术实现实时生成并保证几何一致性。
⭐亮点都有哪些
(1)系统性概述
HY-World 1.5开源提供了一个系统全面的实时世界模型框架,涵盖了整个流程和所有阶段,包括数据、训练和推理部署。技术报告介绍了模型式预训练、强化学习训练和记忆消耗模型的详细训练。此外,报告介绍了一系列旨在减少网络传输延迟和模型推理延迟的工程技术,从而为用户实现实时流推理细节体验。

(2)推理流程
给定单张图像或文本提示来一个世界,我们的模型执行下一个(16个视频帧)预测任务,用户的动作生成未来视频。对于每一个的生成,我们从过去的块动态重构上下文记忆,以强制长期时间和几何块的一致性。

⭐评估结果如何
HY-World 1.5在各种定义指标上超越了现有方法,包括不同视频长度的重建指标和人工评估。


混元全新大模型正式发布,专属体验通道现已开放!
我们的小编第一时间申请了体验权限,大家都顺利拿到体验码了吗?

Lab4AI可提供高性能GPU算力资源,同时我们也诚邀各位前来贡献你的体验实践内容。
👉点击体验

浙公网安备 33010602011771号