ATTQL

2022年1月26日

摘要：本文仅大致记录了整个模型，注重点为视频预测部分类似通用的模型，主要处理CV方面，包括多项从文本到视觉的任务。提出的关键点：一、数据处理将文本、图像、视频数据均处理成为一个$HWT*D$的张量（HW为空间维度长宽、T为时间维度、D为向量的长度）. 文本通过BPE处理为$11s*d$的张量，s为阅读全文

posted @ 2022-01-26 17:13 ATTQL 阅读(342) 评论(0) 推荐(0)

公告