2023 年 6月 21 日随笔档案 - deephub

2023年6月21日

摘要：在数字时代，视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务，不仅需要视觉和听觉信号的整合，还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的视觉和听觉内容。论文设计了两个分支，即视觉语阅读全文

posted @ 2023-06-21 09:41 deephub 阅读(196) 评论(0) 推荐(0)

deephub

overfit深度学习

公告