摘要: group relative policy optimization 用同组样本的相对奖励替代价值网络,计算组归一化优势(Group-Normalized Advantage),再用类似 PPO 的裁剪目标更新策略,全程无 Critic。 特色是:大幅降低显存与计算开销,同时提升训练稳定性 伪代码 阅读全文
posted @ 2026-04-01 00:17 YoungF 阅读(12) 评论(0) 推荐(0)
摘要: 定义 On-Policy Distillation是一种融合强化学习(On-Policy RL) 与知识蒸馏(Knowledge Distillation) 的模型训练范式,核心是让学生模型在自己生成的轨迹中学习,并由教师模型提供逐 token 密集监督,解决传统离线蒸馏的分布不匹配与RL反馈稀疏问 阅读全文
posted @ 2026-04-01 00:04 YoungF 阅读(248) 评论(0) 推荐(0)
摘要: LoRA, QLoRA, DoRA, LoRA+, LLaMAPro, LongLoRA, LoRA-GA, ReFT, RS-LoRA, Adapter, LISA LoRA,全称low-rank adaption,低秩适配 冻结整个预训练大模型,只训练极小部分参数,实现任务适配。 原理 只加一点 阅读全文
posted @ 2026-03-31 10:06 YoungF 阅读(35) 评论(0) 推荐(0)
摘要: agent只是套个壳子的LLM 未来的核心是LLM会替代agent 如何看待不少媒体声称“AI即将替换人类”? 作为AI的从业者,听到这个消息,只能说媒体都是不安好心,为了博人眼球,总是制造焦虑,整个大故事; 其实AI替换人类只是一个提前放出来的烟雾弹,最客观的分析是把它看成一个加强版的工具,以豆包 阅读全文
posted @ 2026-03-22 16:58 YoungF 阅读(6) 评论(0) 推荐(0)