会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Coding Poineer
Coding Poineer
Coding Poineer
Coding Poineer
Coding Poineer
Coding Poineer
Coding Poineer
Coding Poineer
Coding Poineer
Coding Poineer
Coding Poineer
365/24/60
博客园
首页
新随笔
订阅
管理
2025年2月10日
reward model相关技术
摘要: Reward Hacking 模型通过利用奖励系统的设计缺陷或漏洞,采取非预期的行为来获取高额奖励,而不是真正实现设计者期望的目标 字节token https://mp.weixin.qq.com/s/lsCshrnmtO-bYaszLFBSNw DeepSeek训练图解:https://zhuan
阅读全文
posted @ 2025-02-10 10:45 365/24/60
阅读(56)
评论(0)
推荐(0)