keycai - 博客园

2024年2月

摘要：简介本质上强化学习也是为了预测下一个action，那能否借用大模型的方法来实现next-action 的预测。业界有多篇借用大模型的方法（transfomer）来实现这个目的。伯克利的这篇算是最为彻底和简洁。https://sites.google.com/berkeley.edu/decis 阅读全文

posted @ 2024-02-22 20:54 keycai 阅读(239) 评论(0) 推荐(0)

记录一次如何给openai （chatgpt api 调用）充值的经历

摘要：网上有很多通过支付宝充值 apple 礼品卡的教程，能成功充值chatgpt-plus，我也成功充值了。但这个账号不能在自己的服务中调用api，需要额外充值，本次是记录如何给openai api 接口调用充值 https://platform.openai.com/account/billing/p 阅读全文

posted @ 2024-02-21 15:11 keycai 阅读(2619) 评论(2) 推荐(1)

2023年1月

离线强化学习在序列决策中的应用

摘要：从样本利用效率，看强化学习的分类 on- policy：每次更新策略需要在重新收集数据，更新数据来自于当前策略，行为策略和目标策略是同一个策略 off-policy：行为策略和目标策略不是同一个策略，更新数据可以来自于更早之前的策略 batch rl，Offline Reinforcement Le 阅读全文

posted @ 2023-01-31 21:12 keycai 阅读(452) 评论(0) 推荐(0)

公告