会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
风生水起
善战者,求之于势,不责于人,故能择人而任势。
博客园
首页
新随笔
联系
订阅
管理
2023年5月25日
PPO算法的一个简单实现:对话机器人
摘要: 综上,PPO算法是一种具体的Actor-Critic算法实现,比如在对话机器人中,输入的prompt是state,输出的response是action,想要得到的策略就是怎么从prompt生成action能够得到最大的reward,也就是拟合人类的偏好。具体实现时,可以按如下两大步骤实现 首先定义4
阅读全文
posted @ 2023-05-25 16:20 风生水起
阅读(830)
评论(0)
推荐(0)