运动引导掩码提升视频表征学习

运动引导掩码提升视频表征学习

研究背景

现代基础模型(如大语言模型)通过重建随机掩码的文本来学习强大的表征。然而将这种方法推广到视频数据并不简单。随机掩码可能让模型通过相邻帧填补空白,而固定区域掩码则可能因相机运动导致模型学习重建背景而非人物和物体。

方法创新

在某中心国际计算机视觉会议(ICCV)上,某机构视频团队提出了一种称为运动引导掩码(MGM)的新算法。该算法生成的掩码能够跟踪视频连续帧中的运动,确保掩码区域的语义一致性并增加重建任务的难度。

关键创新在于利用现代视频压缩算法中已有的运动向量,而非计算成本高昂的光流,从而实现大规模视频模型的高效自监督训练。

技术实现

运动向量利用

数字视频通常以24-30帧/秒的速率播放。现代视频编解码器通过运动向量压缩视频,这些向量定义了8×8或16×16像素块在帧间的移动方式。运动向量的稀疏性使其仅需传统图像1/64的内存。

掩码生成

MGM算法使用运动向量作为确定感兴趣区域的代理,在每帧中掩码最高运动区域周围的矩形区域,要求模型重建这个被掩码的3D视频体积。

实验结果

在实验中,MGM仅使用最佳先前模型三分之一的训练数据就能实现最先进的视频表征。在下游任务测试中,相比先前方法性能提升高达5%。

技术优势

该方法通过利用流行视频格式中已有的高效运动指导,改善了视频表征学习。运动引导掩码在捕捉视频内容语义信息方面优于其他视频掩码技术。

研究领域:计算机视觉

相关技术:视频表征、数据表示、表征学习
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-10-19 23:04  CodeShare  阅读(2)  评论(0)    收藏  举报