coins30zhl  

前两天玩爽了。

今日:
1.早上来上班先又对了一遍账。

Trellis:Structured 3D Latents for Scalable and Versatile 3D Generation收获感悟
粗读:
Abstract & Introduction
统一的结构潜变量(SLAT),能够解码成任意3D表示。同时提取结构和纹理特征。
动机:AIGC很牛了,2D已经能工业化产业化应用了,但3D还达不到。不像2D只用像素就能表示,3D有各种各样表示(mesh\点云\辐射场\高斯),每种还都是为了某种任务特定定制的。比如mesh和隐式场表征几何牛逼,辐射场和3DGS表示渲染牛逼,倒来倒去很麻烦。本文希望提出一种统一的框架。
两个策略:1.提出显式稀疏3D结构在潜空间的表示,能解码到不同的3D表示上 2.为稀疏3D结构配备VLM来编码细节信息

SLAT:结合sparse structures和visual representations。
基于上述两种策略,我们提出了结构化潜在表示,这是一种用于高质量、多功能3D生成的统一3D潜在表示方法。SLAT将稀疏结构与强大的视觉表征能力相结合。它在物体表面相交的活性体素上定义局部潜在变量。这些局部潜在变量通过对3D资源进行密集视图渲染所获得的图像特征进行融合与处理而编码得到,并将其附着在活性体素上。这些源自强大预训练视觉编码器的特征,捕捉了详细的几何和视觉特性,弥补了活性体素所提供的粗糙结构的不足。随后,可以应用不同的解码器,将SLAT映射为各种高质量的3D表示形式。

Input condition:text prompts or images
两阶段的pipeline:1.生成SLAT的sparse structure 2.用rectified Transformer做backbone model
贡献:高质量、多元化、灵活编辑、不用拟合。

Related Works:妈的,3D生成都是这些
1.3D生成模型:早期用GAN,然后是扩散,再之后是潜空间。
2.用2D生成模型创造3D:一种是蒸馏,另一种是多视图重建。(会产生multiview inconsistency从而geometry inconsistency)
3.整流流模型:“a novel generative paradigm”,比扩散模型厉害。

精读:
Method
image
训练
第一步:输入真实3D模型,训练VAE的E和D。E负责把真实3D模型转化成SLAT,D负责解码SLAT成3D资产,算损失来训练。
第二步:输入文本或图像,训练Gs和Gl。让他们生成的SLAT与E生成的SLAT尽可能一样。这时要冻结VAE。
可以拿来用了。输入文本或图像,直接调用CLIP或DINO提取特征,通过Gs和Gl生成SLAT,进入D,解码成3D资产。

整流流模型:
正向过程是线性插值,x(t) = (1 − t)x0 + tε:在数据样本x0和噪声ε之间插值,时间步长为t。
反向过程可以用时间相关的向量场表示,v(x, t) = ∇t x
image

Experiments
训练数据集:Objaverse(XL)+ABO+3D-FUTURE+HSSD,每个3D资产渲染150张图,用GPT-4o作文本捕获。
评价指标:外观逼真度:渲染重建结果与GT之间的PSNR和LPIPS。几何质量:倒角距离(CD)和F分数来评估整体形状精度,并使用渲染法线图的PSNR和LPIPS来评估表面细节。附录里有计算公式。
定量指标对比:
image

BTW
妈的,看完这篇文章我突然懂了。之前旭哥推荐了这个之后我一直没看,跟别人汇报时一直以为只能生成mesh的也没人反驳。我还真得是这个领域的专家,组里其他人儿都没看过不知道的。反过来一想确实,我也是只盯着自己这个方向一直在看生成的东西,顶多看看编辑和合成。之后还有人做生成吗?没有的话那我就自己推了,实在不行整个微调工程发个专利毕了业得了。妈的。

Trellis2:Native and Compact Structured Latents for 3D Generation收获感悟
粗读:
Abstract & Introduction
新的稀疏体素结构O-Voxel,一种新的全体素表示,能同时编码几何和外表。基于O-Voxel设计了一种稀疏压缩的VAE,能达到高空间压缩率和压缩潜空间。推理高效。
动机:先肯定了3D生成模型进步很快,由潜空间3D表示激励而得,比之前更接近现实世界以及工业应用了。话锋一转但是该领域仍然缺少能够同时 捕获任意3D资产 和 处理成潜空间信息 的基本表示。喷自己的老方法依靠多视图监督,喷现有模型都喜欢在处理表面上下功夫。

提出一种新的“Field-Free”稀疏体素结构,叫O-Voxel,对几何和外观进行编码,给mesh资产和神经网络之间建立桥梁。对于几何,能处理更多拓扑结构(比如开放、非流形、全封闭表面);对于外观,能捕获除了材质颜色之外的更多属性,利用PBR(Physically-based rendering)参数实现重新打光,利用引入材料不透明度实现能够处理半透明表面。
O-Voxel可以和原始3D资产即时双向转换,不需要优化也不需要渲染,非常快速。基于O-Voxel设计了一种稀疏3D VAE,为了高分辨率和压缩多倍。

Related Works这里的引用文献可以多看。如果哪个需要的话。
1.用于3D生成的表示:早期用隐式场,比如占据场和SDF,NeRF将几何和外观整合在辐射场中,但是几何质量低、采样成本高;非结构化的表示比如点云、mesh、高斯球提供了显式方法,但缺乏结构的规整性。近期研究引入了专门为3D生成设计的结构化表示,基于场的等值面建模与稀疏体素,以实现高分辨率几何建模。反正都不如自己方法好。
2.潜空间3D表示:类似2D方法,近期3D生成领域也越来越多地从使用显式几何表示转向使用紧凑的潜在空间,包括潜在点云潜在体素分层网格以及三平面嵌入。最重要的一种是unstructured latent,把3D数据编码成无序的特征向量;另一种是structured latent built upon sparsity priors,能获得更高的几何精度。
3.大型3D资产生成模型和系统:一般都先形状生成,再多视角纹理合成。咱不这样。

posted on 2025-12-22 18:12  coins30  阅读(0)  评论(0)    收藏  举报