多模态指代消解模型在挑战赛中夺冠

多模态指代消解技术突破

配备屏幕的语音设备（如某智能终端）日益普及，这类设备需要解决多模态交互中的核心挑战：如何通过自然语言理解准确识别屏幕上被指代的对象。该任务被称为多模态指代消解，用户可能通过视觉属性（"红色外套"）、绝对位置（"右侧第二个"）、相对位置（"黑色外套旁边"）或对话历史（"刚才提到的"）来描述目标对象。

模型架构创新

基于视觉语言预训练模型VL-BERT，研究团队进行了三项关键改进：

图结构表征
通过图神经网络构建场景中物体的空间关系图，节点表示物体，边编码五种空间关系（上/下/左/右/包含）。图卷积网络生成包含邻域信息的节点嵌入。
多源知识融合
引入品牌、价格等非视觉元数据，扩展指代消解的语义维度。
局部环境建模
- 在目标物体周围生成8个方向采样框，提取局部视觉特征
- 通过图像描述模型自动生成周边物体（如货架、桌子）的文本描述

技术实现细节

模型输入包含四类数据流：

语言流：对话文本、元数据及特殊标记
视觉流：整体场景特征、候选物体及其周边区域特征
片段流：区分对话轮次与查询内容
位置流：标记位置编码

性能表现

在DSTC10挑战赛中，该模型以F1分数领先。其创新性体现在：

通过图结构建模远距离物体关系
局部采样框解决未识别物体的上下文指代（如"柜台上的物品"）
自动生成的周边描述支持环境语境理解（如"长椅上的夹克"）

该技术将提升带屏设备的交互效率，使用户能更自然地表达意图。

更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码

posted @ 2025-08-02 22:21 CodeShare 阅读(17) 评论(0) 收藏举报

刷新页面返回顶部

codeshare1135

多模态指代消解模型在挑战赛中夺冠

多模态指代消解技术突破

模型架构创新

技术实现细节

性能表现

公告