摘要: 很早之前就想了解一下LLM到底是怎么和强化学习结合的,今天凑巧查资料的时候看到亚马逊的一篇文章,把知识点整理记录一下。 1 什么是RLHF RLHF 代表“Reinforcement Learning from Human Feedback”,即基于人类反馈的强化学习。它是一种机器学习技术,利用人类 阅读全文
posted @ 2024-02-13 18:56 Aikoin 阅读(1001) 评论(0) 推荐(0)