清华联合字节刷新 3D 头像技术!FlexAvatar 实现 “少图输入 + 高保真动态” 双重突破
清华联合字节刷新 3D 头像技术!FlexAvatar 实现 “少图输入 + 高保真动态” 双重突破
![]()
![]()
论文标题:FlexAvatar: Flexible Large Reconstruction Model for Animatable Gaussian Head Avatars with Detailed Deformation
发布时间:2025年12月19日
大模型实验室链接Lab4AI论文阅读
🔍背景
以前做 3D 头像,要么得用专业设备拍几十上百张不同角度的照片,普通人搞不定;要么做出来的头像假,侧面看变形,做表情时没细节;要么动起来卡顿,或者只能做几种固定表情,没法自然还原复杂动作;要么得花几小时甚至几天调教模型,没法快速得到自己的头像。
🔍研究目的
本研究旨在构建一个无需相机位姿与表情标注、支持单张或稀疏输入的高保真可驱动3D头部虚拟人生成框架。
无需相机姿态和表情标签,仅从单张或稀疏图像中生成高保真、几何一致的可动画 3D 头部头像,同时兼顾实时渲染效率与动态细节真实性,填补现有技术在灵活性、保真度与实时性之间的平衡缺口。
🔍本文核心贡献
1️⃣灵活的重建模型:提出首个免相机位姿、免表情标签、支持任意数量输入的3D高斯虚拟人框架,基于结构化头部查询令牌(Head Query Tokens)实现特征聚合;
2️⃣动态高斯变形解码:设计以UV位置图为条件的UNet解码器,在UV空间生成表情相关的高斯属性变化,实现实时高保真驱动;
3️⃣数据分布调整策略:通过锚点表情筛选与相似帧检索,平衡训练集表情分布,提升动态细节学习效率;
4️⃣高效微调机制:10秒级的测试时优化可增强身份细节,且不影响实时驱动性能。

浙公网安备 33010602011771号