YoungF

2026年5月21日

摘要： pretraining 预训练为什么要pretraining 为何千亿参数必须做预训练？随机初始化为何不可行预训练≠微调，预训练是模型初始权重分布塑造自回归预训练、掩码语言预训练、多模态预训练 Pretraining的定义利用海量无标注通用原始数据，通过自监督学习任务，让模型学习语言规律、世阅读全文

posted @ 2026-05-21 01:04 YoungF 阅读(4) 评论(0) 推荐(0)

2026年4月1日

GRPO

摘要： group relative policy optimization 用同组样本的相对奖励替代价值网络，计算组归一化优势（Group-Normalized Advantage），再用类似 PPO 的裁剪目标更新策略，全程无 Critic。特色是：大幅降低显存与计算开销，同时提升训练稳定性伪代码阅读全文

posted @ 2026-04-01 00:17 YoungF 阅读(14) 评论(0) 推荐(0)

on-policy distillation

摘要：定义 On-Policy Distillation是一种融合强化学习（On-Policy RL）与知识蒸馏（Knowledge Distillation）的模型训练范式，核心是让学生模型在自己生成的轨迹中学习，并由教师模型提供逐 token 密集监督，解决传统离线蒸馏的分布不匹配与RL反馈稀疏问阅读全文

posted @ 2026-04-01 00:04 YoungF 阅读(309) 评论(0) 推荐(0)

2026年3月31日

LoRA技术详解

摘要： LoRA, QLoRA, DoRA, LoRA+, LLaMAPro, LongLoRA, LoRA-GA, ReFT, RS-LoRA, Adapter, LISA LoRA，全称low-rank adaption，低秩适配冻结整个预训练大模型，只训练极小部分参数，实现任务适配。原理只加一点阅读全文

posted @ 2026-03-31 10:06 YoungF 阅读(36) 评论(0) 推荐(0)

2026年3月22日

一些碎片

摘要： agent只是套个壳子的LLM 未来的核心是LLM会替代agent 如何看待不少媒体声称“AI即将替换人类”？作为AI的从业者，听到这个消息，只能说媒体都是不安好心，为了博人眼球，总是制造焦虑，整个大故事；其实AI替换人类只是一个提前放出来的烟雾弹，最客观的分析是把它看成一个加强版的工具，以豆包阅读全文

posted @ 2026-03-22 16:58 YoungF 阅读(7) 评论(0) 推荐(0)

focusing on nlp & llm