LRM reward signal 论文两篇

RLBFF: BINARY FLEXIBLE FEEDBACK TO BRIDGE BETWEEN HUMAN FEEDBACK & VERIFIABLE REWARDS

Language Models that Think, Chat Better

posted @ 2025-09-28 14:21 jack-chen666 阅读(20) 评论(0) 收藏举报

刷新页面返回顶部