Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法

Coconut(连续思维链)提出了一种新的大语言模型推理范式,该范式在潜在空间中进行运算,利用模型隐藏层生成的连续思维状态取代传统的基于文本的推理方式。系统将这些状态以输入嵌入的形式反馈至模型,通过广度优先搜索方法同时探索多条推理路径,避免了单一路径推理的局限性。通过规避基于自然语言推理的固有效率瓶颈,Coconut在需要回溯的逻辑任务中展现出显著的性能优势,同时大幅降低了推理过程中的token消耗。

 

https://avoid.overfit.cn/post/e170c8c7a54a4c65ab3c2be83c399014

posted @ 2025-01-15 13:30  deephub  阅读(2)  评论(0编辑  收藏  举报