多模态指代消解模型在挑战赛中夺冠
多模态指代消解技术突破
配备屏幕的语音设备(如某智能终端)日益普及,这类设备需要解决多模态交互中的核心挑战:如何通过自然语言理解准确识别屏幕上被指代的对象。该任务被称为多模态指代消解,用户可能通过视觉属性("红色外套")、绝对位置("右侧第二个")、相对位置("黑色外套旁边")或对话历史("刚才提到的")来描述目标对象。
模型架构创新
基于视觉语言预训练模型VL-BERT,研究团队进行了三项关键改进:
-
图结构表征
通过图神经网络构建场景中物体的空间关系图,节点表示物体,边编码五种空间关系(上/下/左/右/包含)。图卷积网络生成包含邻域信息的节点嵌入。 -
多源知识融合
引入品牌、价格等非视觉元数据,扩展指代消解的语义维度。 -
局部环境建模
- 在目标物体周围生成8个方向采样框,提取局部视觉特征
- 通过图像描述模型自动生成周边物体(如货架、桌子)的文本描述
技术实现细节
模型输入包含四类数据流:
- 语言流:对话文本、元数据及特殊标记
- 视觉流:整体场景特征、候选物体及其周边区域特征
- 片段流:区分对话轮次与查询内容
- 位置流:标记位置编码
性能表现
在DSTC10挑战赛中,该模型以F1分数领先。其创新性体现在:
- 通过图结构建模远距离物体关系
- 局部采样框解决未识别物体的上下文指代(如"柜台上的物品")
- 自动生成的周边描述支持环境语境理解(如"长椅上的夹克")
该技术将提升带屏设备的交互效率,使用户能更自然地表达意图。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码


浙公网安备 33010602011771号