fangpin

2025年11月17日

摘要：一文吃透：不依赖成熟 RL 库，如何实现 REINFORCE、REINFORCE-baseline 与 GRPO；数理推理模型的强化学习微调实践；训练/参考/采样模型的多卡调度。引言你是否也遇到过：模型“会思考”，但少数题正确，格式还常常不合规？我在 Qwen/Qwen2.5-Math-1.5B 阅读全文

posted @ 2025-11-17 22:56 fangpin 阅读(3) 评论(0) 推荐(0)

手撸大模型的分布式训练：深刻理解大模型训练的“起飞”原理

摘要：单卡不够？内存爆炸？训练太慢？在大型语言模型（LLM）的训练过程中，单设备算力和内存往往成为性能瓶颈。如何高效地利用多GPU甚至多节点资源进行分布式训练，是每个LLM研究者和工程师必须面对的挑战。本文将深入剖析 llm-from-scratch 仓库中 parallel 目录的实现原理，揭秘如何从阅读全文

posted @ 2025-11-17 22:51 fangpin 阅读(3) 评论(0) 推荐(0)

从0到1：揭秘LLM预训练前的海量数据清洗全流程

摘要：读完这篇文章，你将用监督微调（SFT）把一个 1.5B 规模的数学模型在 GSM8K 上的零样本推理正确率从 1.56% → 62.9%，同时把输出格式遵循率从 18.9% → 100%。我们将完整走通数据集下载、Prompt 架构、训练配置和评估方法，所有代码均来自本仓库 alignment 文件阅读全文

posted @ 2025-11-17 22:46 fangpin 阅读(2) 评论(0) 推荐(0)

深入解析：使用 Triton 实现 Flash Attention2 - 让大模型训练飞起来

摘要：引言你是否曾经在训练大型语言模型时，眼睁睁地看着 GPU 内存不断飙升，最终因为 OOM（Out of Memory）错误而前功尽弃？或者在处理长序列时，发现注意力机制的计算时间呈平方级增长，让人望而却步？如果你有过这样的经历，那么今天这篇文章将为你带来一个革命性的解决方案：Flash Atte 阅读全文

posted @ 2025-11-17 22:34 fangpin 阅读(4) 评论(0) 推荐(0)

从 0 搭建 LLM 不再难！这个 PyTorch 项目帮你吃透大模型底层逻辑

摘要：如果你曾想深入理解大语言模型（LLM）的 “五脏六腑”，却被框架封装的黑盒接口、复杂的源码结构劝退；如果你希望亲手实现 Transformer 的每一个组件，而非单纯调用transformers库 —— 那么今天推荐的这个开源项目，绝对能成为你的 LLM 学习 “脚手架”。它就是 GitHub 上阅读全文

posted @ 2025-11-17 22:31 fangpin 阅读(2) 评论(0) 推荐(0)

公告