具身智能中的视觉-语言-动作模型

具身智能中的视觉-语言-动作模型

1.VLA模型的发展历程+技术突破＋主流模型对比

2.具身智能VLA模型关键技术

3.未来：泛化能力提升/人机交互增强/实际应用拓展

视觉多模态技术核心

1.视觉多模态的定义与应用场景

2.融合方法分类及实现逻辑与适用场景

3.KITTI、Waymo、MultiCaRe等数据集选型实战技巧

4.对齐偏差、信息丢失等难点优化思路

从视频生成到世界模型

1.3D UNet /inflated UNet:时空去噪与局部归纳偏置

2.Diffusion Transformer (DiT)

3.世界模型：未来观测到可交互世界

posted @ 2026-01-20 09:37 txwtech 阅读(36) 评论(4) 收藏举报

刷新页面返回顶部

Txwtech