具身智能中的视觉-语言-动作模型
具身智能中的视觉-语言-动作模型
1.VLA模型的发展历程+技术突破+主流模型对比
2.具身智能VLA模型关键技术
3.未来:泛化能力提升/人机交互增强/实际应用拓展
2
视觉多模态技术核心
1.视觉多模态的定义与应用场景
2.融合方法分类及实现逻辑与适用场景
3.KITTI、Waymo、MultiCaRe等数据集选型实战技巧
4.对齐偏差、信息丢失等难点优化思路
3
从视频生成到世界模型
1.3D UNet /inflated UNet:时空去噪与局部归纳偏置
2.Diffusion Transformer (DiT)
3.世界模型:未来观测到可交互世界
欢迎讨论,相互学习。
cdtxw@foxmail.com

浙公网安备 33010602011771号