摘要:
奖励模型相关内容 这是 让 LLM 来评判 系列文章的第五篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是奖励模型? 奖励模型通过学习人工标注的成对 prompt 数据来预测分数,优化目标是对齐人类偏好。 阅读全文
奖励模型相关内容 这是 让 LLM 来评判 系列文章的第五篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是奖励模型? 奖励模型通过学习人工标注的成对 prompt 数据来预测分数,优化目标是对齐人类偏好。 阅读全文
posted @ 2025-02-14 17:30
HuggingFace
阅读(796)
评论(0)
推荐(0)

浙公网安备 33010602011771号