2025 年 2月 26 日随笔档案 - AAA建材王师傅

2025年2月26日

摘要：训练过程在此示例中，将微调“distilroberta-base”模型。该formatting_func函数将指令与所选和拒绝的响应相结合，创建两个新字符串。这些字符串被标记化，成为奖励模型的输入，该模型根据这些示例学习区分好响应和坏响应。损失函数的设计方式是最大化所选和拒绝响应的分数之间的差异阅读全文

posted @ 2025-02-26 23:42 AAA建材王师傅阅读(882) 评论(0) 推荐(0)

zz-w

公告