会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
红豆生南国 是很遥远的事情
种豆南山下 github
博客园
首页
新随笔
联系
订阅
管理
2025年7月3日
大模型- PPO大语言模型(LLM)对齐的强化学习算法 -75
摘要: 参考链接 故事设定:训练一名弓箭手 智能体 (Agent):一名弓箭手。 策略 (Policy):弓箭手在看到目标距离、风速等情况后,决定“拉弓的力度”和“瞄准的角度”的策略。 动作 (Action):具体的一次拉弓和瞄准。 奖励 (Reward):箭命中靶心(高奖励),命中靶子(低奖励),脱靶(负
阅读全文
posted @ 2025-07-03 09:49 jack-chen666
阅读(201)
评论(0)
推荐(0)
公告