2024 年 2月 13 日随笔档案 - Aikoin

2024年2月13日

摘要：很早之前就想了解一下LLM到底是怎么和强化学习结合的，今天凑巧查资料的时候看到亚马逊的一篇文章，把知识点整理记录一下。 1 什么是RLHF RLHF 代表“Reinforcement Learning from Human Feedback”，即基于人类反馈的强化学习。它是一种机器学习技术，利用人类阅读全文

posted @ 2024-02-13 18:56 Aikoin 阅读(1061) 评论(0) 推荐(0)

Aikoin

心之所向，无所不成。

公告