多模态推理新框架:认知思维链技术解析
认知思维链:社会情境中的结构化多模态推理
思维链(CoT)提示能够帮助模型进行逐步思考。但当模型需要同时进行观察、理解和判断时,传统的扁平化CoT方法往往失效。特别是在基于社会情境的视觉任务中,连接感知与规范基础判断的能力至关重要。
本文提出认知思维链(CoCoT)提示策略,通过三个受认知启发的阶段来搭建视觉语言模型(VLM)的推理框架:
- 感知阶段:处理原始感官输入
- 情境阶段:理解当前场景上下文
- 规范阶段:基于社会规范做出判断
实验结果表明,在多个多模态基准测试(包括意图消歧、常识推理和安全性评估)中,CoCoT consistently outperforms CoT和直接提示方法,平均性能提升8%。这些发现证明,基于认知的推理阶段能够增强视觉语言模型的可解释性和社会意识,为构建更安全可靠的多模态系统铺平道路。
论文状态:评审中,共17页
学科分类:计算与语言、人工智能、计算机与社会
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号