摘要:
一文吃透:不依赖成熟 RL 库,如何实现 REINFORCE、REINFORCE-baseline 与 GRPO;数理推理模型的强化学习微调实践;训练/参考/采样模型的多卡调度。 引言 你是否也遇到过:模型“会思考”,但少数题正确,格式还常常不合规?我在 Qwen/Qwen2.5-Math-1.5B 阅读全文
posted @ 2025-11-17 22:56
fangpin
阅读(3)
评论(0)
推荐(0)
摘要:
单卡不够?内存爆炸?训练太慢? 在大型语言模型(LLM)的训练过程中,单设备算力和内存往往成为性能瓶颈。如何高效地利用多GPU甚至多节点资源进行分布式训练,是每个LLM研究者和工程师必须面对的挑战。本文将深入剖析 llm-from-scratch 仓库中 parallel 目录的实现原理,揭秘如何从 阅读全文
posted @ 2025-11-17 22:51
fangpin
阅读(3)
评论(0)
推荐(0)
摘要:
读完这篇文章,你将用监督微调(SFT)把一个 1.5B 规模的数学模型在 GSM8K 上的零样本推理正确率从 1.56% → 62.9%,同时把输出格式遵循率从 18.9% → 100%。我们将完整走通数据集下载、Prompt 架构、训练配置和评估方法,所有代码均来自本仓库 alignment 文件 阅读全文
posted @ 2025-11-17 22:46
fangpin
阅读(2)
评论(0)
推荐(0)
摘要:
引言 你是否曾经在训练大型语言模型时,眼睁睁地看着 GPU 内存不断飙升,最终因为 OOM(Out of Memory)错误而前功尽弃?或者在处理长序列时,发现注意力机制的计算时间呈平方级增长,让人望而却步? 如果你有过这样的经历,那么今天这篇文章将为你带来一个革命性的解决方案:Flash Atte 阅读全文
posted @ 2025-11-17 22:34
fangpin
阅读(4)
评论(0)
推荐(0)
摘要:
如果你曾想深入理解大语言模型(LLM)的 “五脏六腑”,却被框架封装的黑盒接口、复杂的源码结构劝退;如果你希望亲手实现 Transformer 的每一个组件,而非单纯调用transformers库 —— 那么今天推荐的这个开源项目,绝对能成为你的 LLM 学习 “脚手架”。 它就是 GitHub 上 阅读全文
posted @ 2025-11-17 22:31
fangpin
阅读(2)
评论(0)
推荐(0)

浙公网安备 33010602011771号