清华联合字节刷新 3D 头像技术!FlexAvatar 实现 “少图输入 + 高保真动态” 双重突破

清华联合字节刷新 3D 头像技术!FlexAvatar 实现 “少图输入 + 高保真动态” 双重突破

论文标题:FlexAvatar: Flexible Large Reconstruction Model for Animatable Gaussian Head Avatars with Detailed Deformation

作者团队:清华大学字节跳动

发布时间:2025年12月19日

论文链接

大模型实验室链接Lab4AI论文阅读

🔍背景

以前做 3D 头像,要么得用专业设备拍几十上百张不同角度的照片,普通人搞不定;要么做出来的头像假,侧面看变形,做表情时没细节;要么动起来卡顿,或者只能做几种固定表情,没法自然还原复杂动作;要么得花几小时甚至几天调教模型,没法快速得到自己的头像。

🔍研究目的

本研究旨在构建一个无需相机位姿与表情标注、支持单张或稀疏输入的高保真可驱动3D头部虚拟人生成框架。

无需相机姿态和表情标签,仅从单张或稀疏图像中生成高保真、几何一致的可动画 3D 头部头像,同时兼顾实时渲染效率与动态细节真实性,填补现有技术在灵活性、保真度与实时性之间的平衡缺口。

🔍本文核心贡献

1️⃣灵活的重建模型:提出首个免相机位姿、免表情标签、支持任意数量输入的3D高斯虚拟人框架,基于结构化头部查询令牌(Head Query Tokens)实现特征聚合;

2️⃣动态高斯变形解码:设计以UV位置图为条件的UNet解码器,在UV空间生成表情相关的高斯属性变化,实现实时高保真驱动;

3️⃣数据分布调整策略:通过锚点表情筛选与相似帧检索,平衡训练集表情分布,提升动态细节学习效率;

4️⃣高效微调机制:10秒级的测试时优化可增强身份细节,且不影响实时驱动性能。

posted @ 2026-01-20 14:48  Lab4AI大模型实验室  阅读(0)  评论(0)    收藏  举报