大语言模型中因果世界模型的零样本物理推理

大型语言模型(LLMs)虽然具备先进的语义能力，但本质上缺乏对物理动态的直观理解，这限制了其在需要因果推理的现实场景中的有效性。本文提出因果世界模型归纳(CWMI)框架，旨在LLM中嵌入显式的因果物理模型。该框架包含专用的因果物理模块(CPM)和新型训练目标——因果干预损失，通过多模态数据促使模型学习因果关系。

与仅捕捉统计相关性的传统方法不同，CWMI通过训练模型预测假设干预的结果，从而建立对物理定律的鲁棒内部表征。实验结果表明，在零样本物理推理任务中，包括PIQA基准和新提出的PhysiCa-Bench数据集，CWMI显著优于最先进的LLMs。这些发现表明，诱导因果世界模型是构建更可靠、更具泛化能力AI系统的关键步骤。

（技术要点说明：