摘要:
下面进入 「能不能把 RL 真正用在 reasoning 上」的核心工程区 reward 设计 + pair 采样策略——为什么这是 GFPO 真正赢的地方。 下面内容默认背景: 任务是 reasoning / 数学 / 代码 / 多步推理 backbone 是 LLM(policy) 用的是 GR 阅读全文
posted @ 2026-02-03 15:11
stardsd
阅读(231)
评论(0)
推荐(0)
摘要:
“GRPO 家族算法操作手册” 一、所有算法的共同起点 不管哪种变体,前 3 步是完全一样的。 Step 0:准备三样东西 一个 当前策略模型 \( \pi_\theta(y \mid x) \) 一个 reward 计算方式 rule / verifier RM GPT-judge correct 阅读全文
posted @ 2026-02-03 14:54
stardsd
阅读(185)
评论(0)
推荐(0)
摘要:
总览表 维度 CIDEr CLIPScore GPT-based Eval 核心思想 人类共识 n-gram 跨模态语义对齐 大模型当裁判 是否需要参考文本 ✅ 需要(多条) ❌ 不需要 可选 是否看图像 ❌ 不直接 ✅ 是 ✅ 是 是否理解语义 ⚠️ 局部 ✅ 全局 ✅ 最强 是否理解事实 ❌ ⚠ 阅读全文
posted @ 2026-02-03 10:20
stardsd
阅读(155)
评论(0)
推荐(0)
摘要:
CIDEr 公式 CIDEr(Consensus-based Image Description Evaluation)是图像描述/自然语言生成领域常用的自动评估指标,尤其在 image captioning 任務中。 📌 核心原理 CIDEr 衡量 候选描述与多条参考描述 之间的相似度: 将句子 阅读全文
posted @ 2026-02-03 10:14
stardsd
阅读(160)
评论(0)
推荐(0)
摘要:
从“直觉 → 结构 → 训练 → 推理 → 新 item 挂载”一步步来,用通俗语言 + 必要公式把 TDM(Tree-based Deep Model,树模型)彻底讲透。 一、结论 TDM 是一种把“海量 item 的多分类问题”,变成“在一棵树上逐层二分类/多分类”的算法,用树结构把计算复杂度从 阅读全文
posted @ 2026-02-03 09:59
stardsd
阅读(44)
评论(0)
推荐(0)

浙公网安备 33010602011771号