Reward Function

1

曾经有一次,我梦到了这样一个有趣的故事:我是一只小白鼠,正在迷宫里马不停蹄地奔跑。远处高耸如云的信标指引着我终点的方位。每到一个岔路口,我便通过直觉猜测一个方向。没想到的是,我貌似没怎么绕路就顺利走到了终点,我也醒了过来。朦胧的意识中我还在自豪:我做 A* 的 heuristic 估的太准了。过了一段时间,我又做了个类似的梦。我梦到我面前的空地上摆了 10 个巨大的按钮,远处巨大的屏幕上写满了密密麻麻的 clause。我意识到这是在让我做 SAT。随机试了几组解都不对后,我就直接放弃了。醒来后我还在想:NPC 问题果然困难!

2

我平常喜欢做一些像数独一样的益智谜题,享受通过推理或是直觉迅速解决它们的乐趣。有一天,我已忘记是自己发现或是经人点拨,我发现大部分纸笔谜题都是 NP 的。一旦给出一组解,检验其正确性显然是 P 的。想到这里,我突然觉得有些索然无味。在这个意义下,我就像在那个梦里一样,一直在当 SAT Solver,只是比谁搜索更快,剪枝更迅速而已。我在做纸笔谜题时比别人快似乎只证明了我拥有更好的 intuition,做启发式搜索的能力更强。

slitherlink 小练习

3

后来,由于我每天无所事事,虚度光阴,脑子里总在思考一些虚无缥缈的问题。我发现我在真实世界中更是充当一个 SAT Solver 的角色。对于数学问题,我要在解空间中找到对应的证明过程,但检验它只需做简单的自然语言处理即可。做 OI 题也大致相同,我只需给出一个在测试集 distribution 中表现出色的并不很长的代码,而验证它是容易的。人们在训练和学习中不断调整自己的 heuristic,通过输入新的套路、理论和知识,在 SFT 和 RL 中交错前进。启发式搜索越准确的人成为了更强的 SAT Solver。不同形式的 SAT 成为了一个个 benchmark,而人们从一个 benchmark 卷到又一个 benchmark。

4

但这些 benchmark 不能构成一切。评价方式应是多样而生动的。前几天我和朋友聊天,我的脑海中突然闪出了一个特殊的思想实验。人们喜欢和说话有意思的人聊天,他们往往能说出引人深思或令人捧腹的语言。那么,这些话应是不可预测的,这样你才会在听到这些话时感到深刻。如果把一个人当作 LLM,把这个人一天内说过或写下的句子记录下来,有趣的人们说话的理应会更高。但当然,把它放进 reward 里也是完全没有道理的。

5

寒假,在 o1 以及 r1 出现之后,我和邓老师有过一段很有意思的谈话。我当时对 LLM + RL 很有信心。邓老师问了我一个问题:如果 LLM 完全没有见过线段树,那么无论如何 RL,它有可能,哪怕一次,sample 出能做区间加 1,区间求和的算法吗?我想了一会,得到了和邓老师一样的答案——不能。那么,另一个问题出现了:人类是如何发明线段树的?我仔细思考了一会,得到了一个很简单的答案。LLM 面对的是冰冷的 auto-regressive 的语言,得到的奖励信号是单一的正确与否;但人类面对的是复杂的宇宙和大自然,追求的目标是——活下去。在活着这个目标面前,无穷的人类在历史中做出了他们的努力,他们在进化中成长,而工具的使用,自然科学的兴起,拥有成为伟大 SAT Solver 的能力,都是在推动生产力发展过程中的必经之路。只是在抽象科学愈发脱离实践的今天,人们似乎忘记了这一点。

在 LLM 出现之前,我也从未想过有一天 AI 可以做 OI 题。但也许,o1/o3 的出现恰恰证明了,LLM 要先成为 world model,一个从语言中看遍人类发展历史的 zero-shot learner,然后它才能做 reasoning。一条孤单的线连它本身都无法支撑,但当它张成一张大网时,就足以网罗起整片空间。

6

当然我并非在说 AI 永远无法超越人类。当有了基本的 world model 作为基础,将一切 reward 全部放在做题上之后,未必不能有出人意料的 performance。借用邓老师的一个趣味的思想实验:如果在另外一个世界中,做不出 SAT 就活不下去,那么在经过了亿万年的进化过程之后,人人都会是出色的 SAT Solver。LLM 同样也可能如此。实际上,甚至在现实世界日益内卷的大环境中,也有不少的人正在阐释这一点。

7

但人类的 reward function 绝对不止于此。在与自然交互的过程中,人能感知到的内容,信息量大到恐怖。而在进化的过程中,人对世界的特征提取也更加准确。往更远处看,人不应只有作为 SAT Solver 的能力,被形形色色的 benchmark 裹挟批判着,还应有眼中的无限风光和与朋友家人间的真挚感情。在某些 benchmark 上失败不能代表一切,甚至所有 benchmark——没有人有权评价福贵的一生,除了福贵自己。人是为活着本身而活着的,而不是为了活着之外的任何事物所活着。

到岸边去
耶里的浪花将会涌来
亲吻我们的脚
神秘忧郁的星晨
会在我们的头上照耀

posted @ 2025-06-15 01:49  xtqqwq  阅读(618)  评论(0)    收藏  举报