摘要: 简介 本质上强化学习也是为了预测下一个action,那能否借用大模型的方法来实现next-action 的预测。业界有多篇借用大模型的方法(transfomer) 来实现这个目的。 伯克利的这篇算是最为彻底和简洁。https://sites.google.com/berkeley.edu/decis 阅读全文
posted @ 2024-02-22 20:54 keycai 阅读(206) 评论(0) 推荐(0)
摘要: 网上有很多通过支付宝充值 apple 礼品卡的教程,能成功充值chatgpt-plus,我也成功充值了。但这个账号不能在自己的服务中调用api,需要额外充值,本次是记录如何给openai api 接口调用充值 https://platform.openai.com/account/billing/p 阅读全文
posted @ 2024-02-21 15:11 keycai 阅读(2158) 评论(2) 推荐(1)
摘要: 从样本利用效率,看强化学习的分类 on- policy:每次更新策略需要在重新收集数据,更新数据来自于当前策略,行为策略和目标策略是同一个策略 off-policy:行为策略和目标策略不是同一个策略,更新数据可以来自于更早之前的策略 batch rl,Offline Reinforcement Le 阅读全文
posted @ 2023-01-31 21:12 keycai 阅读(397) 评论(0) 推荐(0)