Stay Hungry,Stay Foolish!

ReAct && MRKL

ReAct

https://learnprompting.org/docs/advanced_applications/react

 

What is ReAct?

ReAct1 (Reason + Act) is a paradigm that enables language models to solve complex tasks through natural language reasoning and actions. It allows an LLM to perform certain actions, such as retrieving external information, and then reason based on the retrieved data.

ReAct systems extend MRKL systems by adding the ability to reason about the actions they can perform.

Example

Below is an example from HotPotQA2, a question-answering dataset requiring complex reasoning. ReAct allows the LLM to reason about the question (Thought 1), take actions (e.g., querying Google) (Act 1). It then receives an observation (Obs 1) and continues the thought-action loop until reaching a conclusion (Act 3).

react qa
ReAct System (Yao et al.)

Readers with knowledge of reinforcement learning may recognize this process as similar to the classic RL loop of state, action, reward, state,... ReAct provides some formalization for this in their paper.

 

MRKL系统1 (Modular Reasoning, Knowledge and Language, pronounced "miracle")

https://hub.baai.ac.cn/view/23915

https://learnprompting.org/zh-Hans/docs/advanced_applications/mrkl

MRKL系统1 (Modular Reasoning, Knowledge and Language, pronounced "miracle") 是一种神经符号结构,结合了LLMs(神经计算)和像计算器(符号计算)这样的外部工具,用于解决复杂问题。

MRKL系统由一组模块(例如计算器、天气API、数据库等)和一个路由器组成,决定如何将自然语言查询“路由”到适当的模块。

一个简单的MRKL系统示例是一个可以使用计算器应用程序的LLM。 这是一个单模块系统,其中LLM是路由器。 当被问到100*100是多少? 时,LLM可以选择从提示中提取数字,然后告诉MRKL系统使用计算器应用程序计算结果。 这可能如下所示:

100*100是多少?

CALCULATOR [100*100]

MRKL系统将看到单词CALCULATOR,并将100*100插入计算器应用程序中。 这个简单的想法可以很容易地扩展到各种符号计算工具。

 

自回归语言模型

https://fuxi.163.com/database/872

自回归语言模型是一种基于统计概率的自然语言处理模型,用于生成和预测文本序列。该模型的核心思想是,利用前面的词语序列,预测下一个词语的概率分布,从而生成连续的文本序列。在自然语言处理中,自回归语言模型是一种非常有用的技术,广泛应用于语言生成、机器翻译、语音识别等领域。

 

程序辅助语言模型(Program-aided Language Models, PAL)

https://learnprompting.org/zh-Hans/docs/advanced_applications/pal

 

程序辅助语言模型(Program-aided Language Models, PAL)1 是另一个MRKL系统的例子。给定一个问题,PAL能够编写代码解决这个问题。它将代码发送到编程运行时以获得结果。PAL的中间推理是代码,而CoT的是自然语言。

PAL 示例 (Gao et al.)

需要注意的是,PAL实际上交织了自然语言(NL)和代码。上面的图片中,蓝色的是PAL生成的自然语言推理。虽然图中没有显示,PAL实际上在每行自然语言推理前生成'#',以便编程运行时将其解释为注释。

 

posted @ 2024-09-15 17:32  lightsong  阅读(43)  评论(0)    收藏  举报
千山鸟飞绝,万径人踪灭