随笔档案「2024年1月31日」：LLM面面观之RLHF平替算法DPO ... - mengrennwpu - 博客园

2024年1月31日

LLM面面观之RLHF平替算法DPO

摘要：

LLM面面观之RLHF平替算法DPO

此文是本qiang~针对大语言模型的DPO算法的整理，包括原理、流程及部分源码。阅读全文

posted @ 2024-01-31 12:37 mengrennwpu 阅读(4652) 评论(1) 推荐(0)