Fork me on GitHub
摘要: 下面进入 「能不能把 RL 真正用在 reasoning 上」的核心工程区 reward 设计 + pair 采样策略——为什么这是 GFPO 真正赢的地方。 下面内容默认背景: 任务是 reasoning / 数学 / 代码 / 多步推理 backbone 是 LLM(policy) 用的是 GR 阅读全文
posted @ 2026-02-03 15:11 stardsd 阅读(231) 评论(0) 推荐(0)
摘要: “GRPO 家族算法操作手册” 一、所有算法的共同起点 不管哪种变体,前 3 步是完全一样的。 Step 0:准备三样东西 一个 当前策略模型 \( \pi_\theta(y \mid x) \) 一个 reward 计算方式 rule / verifier RM GPT-judge correct 阅读全文
posted @ 2026-02-03 14:54 stardsd 阅读(185) 评论(0) 推荐(0)
摘要: 总览表 维度 CIDEr CLIPScore GPT-based Eval 核心思想 人类共识 n-gram 跨模态语义对齐 大模型当裁判 是否需要参考文本 ✅ 需要(多条) ❌ 不需要 可选 是否看图像 ❌ 不直接 ✅ 是 ✅ 是 是否理解语义 ⚠️ 局部 ✅ 全局 ✅ 最强 是否理解事实 ❌ ⚠ 阅读全文
posted @ 2026-02-03 10:20 stardsd 阅读(155) 评论(0) 推荐(0)
摘要: CIDEr 公式 CIDEr(Consensus-based Image Description Evaluation)是图像描述/自然语言生成领域常用的自动评估指标,尤其在 image captioning 任務中。 📌 核心原理 CIDEr 衡量 候选描述与多条参考描述 之间的相似度: 将句子 阅读全文
posted @ 2026-02-03 10:14 stardsd 阅读(160) 评论(0) 推荐(0)
摘要: 从“直觉 → 结构 → 训练 → 推理 → 新 item 挂载”一步步来,用通俗语言 + 必要公式把 TDM(Tree-based Deep Model,树模型)彻底讲透。 一、结论 TDM 是一种把“海量 item 的多分类问题”,变成“在一棵树上逐层二分类/多分类”的算法,用树结构把计算复杂度从 阅读全文
posted @ 2026-02-03 09:59 stardsd 阅读(44) 评论(0) 推荐(0)