摘要:
机构:Salesforce AI Research 链接:https://arxiv.org/abs/2504.11343 alpharxiv🌟:1200+ insight 在这项工作中,我们从一种类似于增强的算法视角重新审视GRPO 并分析其核心组件。令人惊 讶的是,我们发现一个简单的拒绝采样基 阅读全文
posted @ 2025-12-16 14:00
Brain404
阅读(5)
评论(0)
推荐(0)
摘要:
重要性采样 起点:我们想要计算什么? 重要性采样要解决的核心问题是:我们想计算一个函数 \(f(x)\) 在目标分布 \(p(x)\) 下的期望值,但我们只有从另一个分布 \(q(x)\) 中采样的样本。 用数学语言表达,我们的目标是计算: \[\mathbb{E}_{x \sim p}[f(x)] 阅读全文
posted @ 2025-12-16 10:56
Brain404
阅读(1)
评论(0)
推荐(0)

浙公网安备 33010602011771号