2023年5月25日
摘要: 综上,PPO算法是一种具体的Actor-Critic算法实现,比如在对话机器人中,输入的prompt是state,输出的response是action,想要得到的策略就是怎么从prompt生成action能够得到最大的reward,也就是拟合人类的偏好。具体实现时,可以按如下两大步骤实现 首先定义4 阅读全文
posted @ 2023-05-25 16:20 风生水起 阅读(830) 评论(0) 推荐(0)