会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
BronyaSilverwing
博客园
首页
新随笔
联系
订阅
管理
2024年11月22日
DPO算法
摘要: 1. 基础知识 1.1 KL散度 1.1.1 定义 KL散度(Kullback-Leibler Divergence)是信息论中的一个重要概念,用于衡量两个概率分布之间的差异。它评估分布 \(P\) 在多大程度上与分布 \(Q\) 不一致。 离散分布下的公式 \[D_{\text{KL}}(P \|
阅读全文
posted @ 2024-11-22 15:05 Bronya_Silverwing
阅读(295)
评论(0)
推荐(0)
公告