SIo_2 - 博客园

2025年7月29日

摘要：深入理解 LangGraph：构建复杂智能体的状态管理与执行流阅读全文

posted @ 2025-07-29 12:22 SIo_2 阅读(168) 评论(0) 推荐(1)

2025年7月11日

摘要：揭秘vLLM：从KV Cache计算到GQA原理的深度之旅发布日期: 2025年7月11日如果你正在与大语言模型（LLM）打交道，那么你一定对“显存”这个词深感敬畏。在模型推理过程中，除了模型权重本身，KV-Cache 是另一个巨大的显存消耗者。高效管理KV-Cache是提升LLM服务吞吐量、降阅读全文

posted @ 2025-07-11 16:19 SIo_2 阅读(297) 评论(0) 推荐(0)

从KV-Cache到PagedAttention，揭秘LLM推理性能的全部细节

摘要：终极解析：从KV-Cache到PagedAttention，深入vLLM代码揭秘性能黑魔法当我们与ChatGPT、Gemini等大型语言模型（LLM）流畅对话时，我们惊叹于其生成文本的速度和连贯性。但这顺滑体验的背后，是一系列精巧的工程技术在默默支撑，它们解决了巨大的计算和内存挑战。其中，KV-C 阅读全文

posted @ 2025-07-11 15:15 SIo_2 阅读(358) 评论(0) 推荐(0)

2025年7月10日

从一行代码到整个世界：深入浅出 FastAPI 与 Python 装饰器

摘要：从一行代码到整个世界：深入浅出 FastAPI 与 Python 装饰器阅读全文

posted @ 2025-07-10 11:43 SIo_2 阅读(41) 评论(0) 推荐(0)

2025年6月28日

探索多模态大模型的实现路径

摘要：探索多模态大模型的实现路径阅读全文

posted @ 2025-06-28 12:22 SIo_2 阅读(80) 评论(0) 推荐(0)

2025年6月27日

智能代理新范式：OpenAI Responses API

摘要：智能代理新范式OpenAI Responses API 阅读全文

posted @ 2025-06-27 19:27 SIo_2 阅读(78) 评论(0) 推荐(0)

2025年6月16日

在本地运行大语言模型：使用 Ollama 导入模型详解

摘要：在本地运行大语言模型：使用 Ollama 导入模型详解阅读全文

posted @ 2025-06-16 10:27 SIo_2 阅读(4473) 评论(0) 推荐(0)

2025年6月7日

Week3-LoRA 的依据与原理

摘要： 🔍 LoRA 的依据与原理：为什么它有效？本文从理论与实践两方面详细解析 LoRA（Low-Rank Adaptation）为何可行，它的原理是什么，以及从线性代数角度如何理解其低秩思想。 📌 背景：为什么需要 LoRA？在微调大规模预训练语言模型（如 GPT-3）时，我们面临几个核心挑战：阅读全文

posted @ 2025-06-07 09:22 SIo_2 阅读(70) 评论(0) 推荐(0)

2025年6月6日

Week3-理解 Transformer 的位置编码：从绝对位置到旋转位置（RoPE）

摘要：理解 Transformer 的位置编码：从绝对位置到旋转位置（RoPE）阅读全文

posted @ 2025-06-06 11:43 SIo_2 阅读(1643) 评论(0) 推荐(0)

2025年5月26日

Week2-大模型参数计算方法

摘要：大模型参数计算方法总结本指南简要总结了如何估算一个 Transformer 架构（例如 GPT、LLaMA、BERT）的大模型参数量，便于理解如 “7B”、“13B” 等模型中参数是如何计算得出的。 🔢 模型参数的组成部分一个典型的 Transformer 模型的参数来源包括：模块参数类型阅读全文

posted @ 2025-05-26 19:49 SIo_2 阅读(153) 评论(0) 推荐(0)

sio2zyh

公告