多模态推理新框架:认知思维链技术解析

认知思维链:社会情境中的结构化多模态推理

思维链(CoT)提示能够帮助模型进行逐步思考。但当模型需要同时进行观察、理解和判断时,传统的扁平化CoT方法往往失效。特别是在基于社会情境的视觉任务中,连接感知与规范基础判断的能力至关重要。

本文提出认知思维链(CoCoT)提示策略,通过三个受认知启发的阶段来搭建视觉语言模型(VLM)的推理框架:

  1. 感知阶段:处理原始感官输入
  2. 情境阶段:理解当前场景上下文
  3. 规范阶段:基于社会规范做出判断

实验结果表明,在多个多模态基准测试(包括意图消歧、常识推理和安全性评估)中,CoCoT consistently outperforms CoT和直接提示方法,平均性能提升8%。这些发现证明,基于认知的推理阶段能够增强视觉语言模型的可解释性和社会意识,为构建更安全可靠的多模态系统铺平道路。

论文状态:评审中,共17页
学科分类:计算与语言、人工智能、计算机与社会
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-09-03 17:17  CodeShare  阅读(24)  评论(0)    收藏  举报