LoVR:面向长视频的多模态检索基准——OceanBase 校企联合研究
摘要:
近日,北京大学与OceanBase联合提出的长视频多模态检索基准LoVR被WWW录用。LoVR是一个面向真实长视频的多模态检索基准,既支持全视频检索也支持片段级检索,并配套一条可规模化的高质量标注流水。LoVR系统性刻画了长视频检索的真实难点,提供了可扩展的高质量多模态数据构建范式,为未来长程语义建模与多粒度检索方法提供统一评测平台。
研究背景与挑战
随着长视频平台和知识型视频内容的快速增长,视频已经从“短片娱乐载体”演变为“结构化知识与复杂事件的长期记录”。无论是教学课程、会议记录、纪录片,还是操作演示与技术讲解,越来越多关键信息分布在数分钟甚至数小时的连续视频中。用户的真实需求,也从“找一个相关视频”升级为“在长视频中精准定位到相关内容”。
然而,现有多模态检索研究仍主要基于短视频或独立片段构建评测环境。这种设置在语义复杂度、时间跨度以及上下文干扰程度上,都难以模拟真实长视频场景。更关键的是,在长视频内部,不同片段之间往往高度相似,语义边界模糊,模型需要具备更强的时间建模能力与细粒度语义区分能力,才能避免“找对主题、但定位错误”的问题。
与此同时,构建高质量的长视频数据本身极具挑战:自动生成的描述可能缺乏准确性或完整性,纯人工标注又难以规模化;简单均匀切分视频又会导致样本过于简单,难以形成有效压力测试。因此,如何在保证数据规模的同时,系统性提升标注质量与任务难度,成为长视频检索研究中亟待解决的核心问题。
核心理论创新

图 1. 高动态片段筛选策略
高动态片段筛选策略,提高检索区分度
在长视频中,大量片段往往语义相似、节奏平缓,若直接均匀切分并构建检索样本,模型很容易依赖低层视觉特征或表层关键词进行匹配,无法真正学习细粒度语义对齐能力。
为此,如图 1 所示,我们提出高动态片段筛选策略:通过检测视觉变化程度与语义活跃度,从长视频中优先保留内容变化更明显、信息密度更高的片段。
这种设计带来两个重要效果。第一,同一长视频内部的片段更加“容易混淆”,模型必须依赖更精确的跨模态语义对齐才能区分;第二,整体检索难度显著提升,避免了“简单样本”导致的虚高结果。换句话说,LoVR 不是简单扩大规模,而是在数据构建阶段主动增强区分度,使 benchmark 本身具备真实挑战性。

图 2. 高质量视频 caption 合成标注流水线
可扩展高质量标注机制:VLM × 自动质检 × 人类兜底
长视频数据构建的核心矛盾在于:纯人工标注质量高但成本极高,纯自动生成规模大但质量不稳定。如图 2 所示,我们提出一种折中但系统化的解决方案:以视觉语言模型(VLM)为生成核心,引入自动质量评估机制进行多轮筛选与修正,并在关键节点加入人工终审作为质量兜底。
具体而言,流程包括:长视频结构化切分 → 片段级 caption 自动生成 → 自动评估打分与迭代修正 → 汇总生成视频级描述 → 人工抽检与终审确认。自动化机制保证规模与效率,人类审核保证语义准确性与逻辑一致性。这种“自动为主、人类兜底”的范式,使 LoVR 在质量与规模之间取得平衡,也为未来多模态数据构建提供了一种可复制的方法论。

图 3. 长视频的 caption 包含视频细节
统一评测框架:全视频检索 + 片段检索
现有视频检索基准往往只关注“找到相关视频”,却忽视了真实应用中更关键的能力——在长视频中精准定位到正确时间段。LoVR 将这两种能力统一纳入同一评测框架:既支持全视频级检索(Video-level Retrieval),也支持片段级检索(Clip-level Retrieval)。
这一设计使模型必须同时具备“全局语义理解能力”和“局部精确定位能力”。如果模型只能识别视频大致主题,却无法区分相似片段,就会在片段级评测中暴露问题;反之,如果模型只擅长局部匹配,却缺乏全局语义建模,也难以在视频级检索中取得理想结果。双粒度评测机制从结构上推动模型向更完整、更真实的长视频理解能力演进,数据样例如图 3 所示。

图 4. Text-to-Video 和 Text-to-Clip 的抽取效果

图 5. Video-to-Text 和 Clip-to-Text 的抽取效果
关键验证成果
LoVR 的验证并不是只停留在“做了一个数据集”,而是围绕规模覆盖、标注质量、任务难度与基线差距、以及可复现构建成本做了系统化的结果展示。
首先在数据规模与任务覆盖上,LoVR 明确面向“长视频”这一真实形态来设计,包含 467 条长视频,并从中构建出 40,804 个片段级 clips。这使得评测不再局限于“短 clip 的匹配”,而是能够同时检验模型在长上下文视频级检索与同一长视频内部的片段级定位两种能力,形成更接近真实应用的完整闭环。
其次在标注质量验证上,我们采用了明确的人类评测流程:随机抽取 300 个片段与 100 个长视频,组织 25 位参与者对 caption 的质量进行打分(0–5)。最终平均分达到 4.3/5,且 78% 以上样本获得 4 或 5 分。这个结果说明:LoVR 的文本描述不仅“可用”,而且在语义准确性、覆盖度与可读性上达到了较稳定的高质量水准,为后续检索评测提供了可靠的 ground truth。
第三,在挑战性与基线差距方面,我们在 LoVR 上系统评测了多类代表性方法,并发现即便是当前较强的基线模型,在 LoVR 上依然表现有限:如图 4 所示,在 Text-to-Video 全视频检索场景下,最强基线的 R@1 约为 42%;而在更贴近真实“定位片段”的Text-to-Clip 片段级检索上,R@1 约为 40%。如图 5 所示,Video-to-Text 检索和 Clip-to-Text 也分别只取得了 37% 和 36% 的效果。这意味着:即使模型可以在一定比例上找到相关结果,整体距离“高精度、可依赖”的长视频检索仍有显著差距,LoVR 的设计确实把任务难度推到了真实场景应有的水平。
最后,从工程可复现与成本画像角度,我们也给出了构建 LoVR 的可复现实证:caption 生成与自动评估的总计算量约为 820 GPU hours(在 H800 上完成),并且流程可被复用到其他长视频或多模态数据构建中。换句话说,LoVR 不仅提供了一个benchmark,也提供了一套“可以规模化复制”的高质量多模态标注范式:用自动化手段确保质量下限,用人工审核兜底确保最终可靠性。
总结与展望
LoVR 的意义不仅在于提出一个新数据集,更在于:
系统性刻画长视频检索的真实难点
提供可扩展的高质量多模态数据构建范式
为未来长程语义建模与多粒度检索方法提供统一评测平台
未来,我们将继续扩展数据规模与场景复杂度,并探索更结构化的长视频语义组织方法,推动长视频检索从“可用”走向“可靠”。
欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/
浙公网安备 33010602011771号