摘要: 深入理解 LangGraph:构建复杂智能体的状态管理与执行流 阅读全文
posted @ 2025-07-29 12:22 SIo_2 阅读(166) 评论(0) 推荐(1)
摘要: 揭秘vLLM:从KV Cache计算到GQA原理的深度之旅 发布日期: 2025年7月11日 如果你正在与大语言模型(LLM)打交道,那么你一定对“显存”这个词深感敬畏。在模型推理过程中,除了模型权重本身,KV-Cache 是另一个巨大的显存消耗者。高效管理KV-Cache是提升LLM服务吞吐量、降 阅读全文
posted @ 2025-07-11 16:19 SIo_2 阅读(295) 评论(0) 推荐(0)
摘要: 终极解析:从KV-Cache到PagedAttention,深入vLLM代码揭秘性能黑魔法 当我们与ChatGPT、Gemini等大型语言模型(LLM)流畅对话时,我们惊叹于其生成文本的速度和连贯性。但这顺滑体验的背后,是一系列精巧的工程技术在默默支撑,它们解决了巨大的计算和内存挑战。其中,KV-C 阅读全文
posted @ 2025-07-11 15:15 SIo_2 阅读(347) 评论(0) 推荐(0)
摘要: 从一行代码到整个世界:深入浅出 FastAPI 与 Python 装饰器 阅读全文
posted @ 2025-07-10 11:43 SIo_2 阅读(41) 评论(0) 推荐(0)
摘要: 探索多模态大模型的实现路径 阅读全文
posted @ 2025-06-28 12:22 SIo_2 阅读(80) 评论(0) 推荐(0)
摘要: 智能代理新范式OpenAI Responses API 阅读全文
posted @ 2025-06-27 19:27 SIo_2 阅读(77) 评论(0) 推荐(0)
摘要: 在本地运行大语言模型:使用 Ollama 导入模型详解 阅读全文
posted @ 2025-06-16 10:27 SIo_2 阅读(4423) 评论(0) 推荐(0)
摘要: 🔍 LoRA 的依据与原理:为什么它有效? 本文从理论与实践两方面详细解析 LoRA(Low-Rank Adaptation)为何可行,它的原理是什么,以及从线性代数角度如何理解其低秩思想。 📌 背景:为什么需要 LoRA? 在微调大规模预训练语言模型(如 GPT-3)时,我们面临几个核心挑战: 阅读全文
posted @ 2025-06-07 09:22 SIo_2 阅读(70) 评论(0) 推荐(0)
摘要: 理解 Transformer 的位置编码:从绝对位置到旋转位置(RoPE) 阅读全文
posted @ 2025-06-06 11:43 SIo_2 阅读(1633) 评论(0) 推荐(0)
摘要: 大模型参数计算方法总结 本指南简要总结了如何估算一个 Transformer 架构(例如 GPT、LLaMA、BERT)的大模型参数量,便于理解如 “7B”、“13B” 等模型中参数是如何计算得出的。 🔢 模型参数的组成部分 一个典型的 Transformer 模型的参数来源包括: 模块 参数类型 阅读全文
posted @ 2025-05-26 19:49 SIo_2 阅读(147) 评论(0) 推荐(0)