摘要: 引言 你有没有好奇过,当你在 PyTorch 或 TensorFlow 中调用 .backward() 计算梯度时,框架到底在背后做了什么? 我们每天都在使用这些成熟的深度学习工具,但很少有人真正去探索它们的底层实现——自动微分的魔法、计算图的构建、张量运算的优化……这些隐藏在API背后的核心原理, 阅读全文
posted @ 2025-12-07 20:55 fangpin 阅读(53) 评论(0) 推荐(0)
摘要: Agent 设计准则 三大准则: 透明:让用户感知 Agent 的存在,以及其行为 可控:用户可以设置 agent的偏好,并对 Agent 进行指令,以及监控其行为 一致性:Agent 行为保持一致,避免用户对 Agent 行为产生困惑 透明性设计 透明性要求 Agent 在交互过程中清晰表达其意图 阅读全文
posted @ 2025-12-05 19:26 fangpin 阅读(61) 评论(0) 推荐(0)
摘要: 核心概念解析 简而言之,强化学习是关于智能体(agent)以及它们如何通过试错来学习的研究。它将这样一种理念形式化:对智能体的行为进行奖励或惩罚,会使它在未来更有可能重复或放弃该行为。 强化学习能做什么? 强化学习方法近年来在多个领域取得了广泛的成功。例如: 它被用于教计算机在模拟环境中控制机器。 阅读全文
posted @ 2025-11-18 22:41 fangpin 阅读(45) 评论(0) 推荐(0)
摘要: 一文吃透:不依赖成熟 RL 库,如何实现 REINFORCE、REINFORCE-baseline 与 GRPO;数理推理模型的强化学习微调实践;训练/参考/采样模型的多卡调度。 引言 你是否也遇到过:模型“会思考”,但少数题正确,格式还常常不合规?我在 Qwen/Qwen2.5-Math-1.5B 阅读全文
posted @ 2025-11-17 22:56 fangpin 阅读(53) 评论(0) 推荐(0)
摘要: 单卡不够?内存爆炸?训练太慢? 在大型语言模型(LLM)的训练过程中,单设备算力和内存往往成为性能瓶颈。如何高效地利用多GPU甚至多节点资源进行分布式训练,是每个LLM研究者和工程师必须面对的挑战。本文将深入剖析 llm-from-scratch 仓库中 parallel 目录的实现原理,揭秘如何从 阅读全文
posted @ 2025-11-17 22:51 fangpin 阅读(31) 评论(0) 推荐(0)
摘要: 读完这篇文章,你将用监督微调(SFT)把一个 1.5B 规模的数学模型在 GSM8K 上的零样本推理正确率从 1.56% → 62.9%,同时把输出格式遵循率从 18.9% → 100%。我们将完整走通数据集下载、Prompt 架构、训练配置和评估方法,所有代码均来自本仓库 alignment 文件 阅读全文
posted @ 2025-11-17 22:46 fangpin 阅读(18) 评论(0) 推荐(0)
摘要: 引言 你是否曾经在训练大型语言模型时,眼睁睁地看着 GPU 内存不断飙升,最终因为 OOM(Out of Memory)错误而前功尽弃?或者在处理长序列时,发现注意力机制的计算时间呈平方级增长,让人望而却步? 如果你有过这样的经历,那么今天这篇文章将为你带来一个革命性的解决方案:Flash Atte 阅读全文
posted @ 2025-11-17 22:34 fangpin 阅读(120) 评论(0) 推荐(0)
摘要: 如果你曾想深入理解大语言模型(LLM)的 “五脏六腑”,却被框架封装的黑盒接口、复杂的源码结构劝退;如果你希望亲手实现 Transformer 的每一个组件,而非单纯调用transformers库 —— 那么今天推荐的这个开源项目,绝对能成为你的 LLM 学习 “脚手架”。 它就是 GitHub 上 阅读全文
posted @ 2025-11-17 22:31 fangpin 阅读(60) 评论(0) 推荐(0)