会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ATTQL
博客园
首页
新随笔
联系
订阅
管理
2022年1月26日
NUWA
摘要: 本文仅大致记录了整个模型,注重点为视频预测部分 类似通用的模型,主要处理CV方面,包括多项从文本到视觉的任务。 提出的关键点: 一、数据处理 将文本、图像、视频数据均处理成为一个$HWT*D$的张量(HW为空间维度长宽、T为时间维度、D为向量的长度). 文本通过BPE处理为$11s*d$的张量,s为
阅读全文
posted @ 2022-01-26 17:13 ATTQL
阅读(342)
评论(0)
推荐(0)
公告