摘要:
奖励模型 R_\phi(x,y) 不会输出“好”或“坏”这样的标签。相反,它会生成一个连续的分数,通常是一个实数,类似于: R_\phi(x,y) \in \mathbb{R}。 该分数反映了对于给定提示 x,响应 y 的可取性或与人类价值观的契合程度。在训练过程中,模型会观察对同一提示 x 的响应 阅读全文
posted @ 2025-10-28 19:36
CathyBryant
阅读(12)
评论(0)
推荐(0)
摘要:
关于无穷大的概念,但不是那种简单的无穷大。康托尔(Cantor)发现的那些奇特而令人不安的无穷大。 大多数人认为无穷大就是……无穷无尽,是一个无限。但康托尔证明了无穷大有不同大小,而且有些无限确实比其他无限更大,而且可以证明。 比如,计数数字(1、2、3……)是无限的。但0到1之间的实数呢?也是无限 阅读全文
posted @ 2025-10-28 16:41
CathyBryant
阅读(39)
评论(0)
推荐(0)

浙公网安备 33010602011771号