具身智能中的视觉-语言-动作模型

具身智能中的视觉-语言-动作模型

1.VLA模型的发展历程+技术突破+主流模型对比

2.具身智能VLA模型关键技术

3.未来:泛化能力提升/人机交互增强/实际应用拓展

2

视觉多模态技术核心

1.视觉多模态的定义与应用场景

2.融合方法分类及实现逻辑与适用场景

3.KITTI、Waymo、MultiCaRe等数据集选型实战技巧

4.对齐偏差、信息丢失等难点优化思路

3

从视频生成到世界模型

1.3D UNet /inflated UNet:时空去噪与局部归纳偏置

2.Diffusion Transformer (DiT)

3.世界模型:未来观测到可交互世界

posted @ 2026-01-20 09:37  txwtech  阅读(2)  评论(3)    收藏  举报