摘要: 本文仅大致记录了整个模型,注重点为视频预测部分 类似通用的模型,主要处理CV方面,包括多项从文本到视觉的任务。 提出的关键点: 一、数据处理 将文本、图像、视频数据均处理成为一个$HWT*D$的张量(HW为空间维度长宽、T为时间维度、D为向量的长度). 文本通过BPE处理为$11s*d$的张量,s为 阅读全文
posted @ 2022-01-26 17:13 ATTQL 阅读(342) 评论(0) 推荐(0)