2025 年 11月 12 日随笔档案 - ldfm

2025年11月12日

VLA1：思想萌芽期 (2022年以前) - “基础奠定”，《Gato: A Generalist Agent》(DeepMind, 2022)

摘要： 1. ViT(Vision Transformer) 中图像的序列化 \[z_0 = [x_{class}; x^1_pE; x^2_pE;\cdots; x^N_pE] + E_{pos}, E ∈ R^{(P 2 ·C)×D} , E_{pos} ∈ R^{(N +1)×D} \]2. toke 阅读全文

posted @ 2025-11-12 10:11 ldfm 阅读(10) 评论(0) 推荐(0)

有点锋芒

公告