会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
sio2zyh
博客园
首页
新随笔
联系
订阅
管理
2025年7月29日
深入理解 LangGraph:构建复杂智能体的状态管理与执行流
摘要: 深入理解 LangGraph:构建复杂智能体的状态管理与执行流
阅读全文
posted @ 2025-07-29 12:22 SIo_2
阅读(166)
评论(0)
推荐(1)
2025年7月11日
揭秘vLLM:从KV Cache计算到GQA原理的深度之旅
摘要: 揭秘vLLM:从KV Cache计算到GQA原理的深度之旅 发布日期: 2025年7月11日 如果你正在与大语言模型(LLM)打交道,那么你一定对“显存”这个词深感敬畏。在模型推理过程中,除了模型权重本身,KV-Cache 是另一个巨大的显存消耗者。高效管理KV-Cache是提升LLM服务吞吐量、降
阅读全文
posted @ 2025-07-11 16:19 SIo_2
阅读(295)
评论(0)
推荐(0)
从KV-Cache到PagedAttention,揭秘LLM推理性能的全部细节
摘要: 终极解析:从KV-Cache到PagedAttention,深入vLLM代码揭秘性能黑魔法 当我们与ChatGPT、Gemini等大型语言模型(LLM)流畅对话时,我们惊叹于其生成文本的速度和连贯性。但这顺滑体验的背后,是一系列精巧的工程技术在默默支撑,它们解决了巨大的计算和内存挑战。其中,KV-C
阅读全文
posted @ 2025-07-11 15:15 SIo_2
阅读(347)
评论(0)
推荐(0)
2025年7月10日
从一行代码到整个世界:深入浅出 FastAPI 与 Python 装饰器
摘要: 从一行代码到整个世界:深入浅出 FastAPI 与 Python 装饰器
阅读全文
posted @ 2025-07-10 11:43 SIo_2
阅读(41)
评论(0)
推荐(0)
2025年6月28日
探索多模态大模型的实现路径
摘要: 探索多模态大模型的实现路径
阅读全文
posted @ 2025-06-28 12:22 SIo_2
阅读(80)
评论(0)
推荐(0)
2025年6月27日
智能代理新范式:OpenAI Responses API
摘要: 智能代理新范式OpenAI Responses API
阅读全文
posted @ 2025-06-27 19:27 SIo_2
阅读(77)
评论(0)
推荐(0)
2025年6月16日
在本地运行大语言模型:使用 Ollama 导入模型详解
摘要: 在本地运行大语言模型:使用 Ollama 导入模型详解
阅读全文
posted @ 2025-06-16 10:27 SIo_2
阅读(4423)
评论(0)
推荐(0)
2025年6月7日
Week3-LoRA 的依据与原理
摘要: 🔍 LoRA 的依据与原理:为什么它有效? 本文从理论与实践两方面详细解析 LoRA(Low-Rank Adaptation)为何可行,它的原理是什么,以及从线性代数角度如何理解其低秩思想。 📌 背景:为什么需要 LoRA? 在微调大规模预训练语言模型(如 GPT-3)时,我们面临几个核心挑战:
阅读全文
posted @ 2025-06-07 09:22 SIo_2
阅读(70)
评论(0)
推荐(0)
2025年6月6日
Week3-理解 Transformer 的位置编码:从绝对位置到旋转位置(RoPE)
摘要: 理解 Transformer 的位置编码:从绝对位置到旋转位置(RoPE)
阅读全文
posted @ 2025-06-06 11:43 SIo_2
阅读(1633)
评论(0)
推荐(0)
2025年5月26日
Week2-大模型参数计算方法
摘要: 大模型参数计算方法总结 本指南简要总结了如何估算一个 Transformer 架构(例如 GPT、LLaMA、BERT)的大模型参数量,便于理解如 “7B”、“13B” 等模型中参数是如何计算得出的。 🔢 模型参数的组成部分 一个典型的 Transformer 模型的参数来源包括: 模块 参数类型
阅读全文
posted @ 2025-05-26 19:49 SIo_2
阅读(147)
评论(0)
推荐(0)
下一页
公告