2023 年 5月 25 日随笔档案 - 风生水起

2023年5月25日

摘要：综上，PPO算法是一种具体的Actor-Critic算法实现，比如在对话机器人中，输入的prompt是state，输出的response是action，想要得到的策略就是怎么从prompt生成action能够得到最大的reward，也就是拟合人类的偏好。具体实现时，可以按如下两大步骤实现首先定义4 阅读全文

posted @ 2023-05-25 16:20 风生水起阅读(853) 评论(0) 推荐(0)