会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
153
下一页
2026年2月23日
深入理解三种PEFT方法:LoRA的低秩更新、QLoRA的4位量化与DoRA的幅度-方向分解
摘要: LLaMA、Mistral、Qwen这些大语言模型动辄数十亿参数,在自定义数据上全量微调代价极高:65B 模型光是 float16 就要消耗掉约 130GB 显存,顶配硬件跑个几天几周很正常而多数下游任务根本用不到那么多参数。 于是研究者们开始思考:能不能只调一小部分参数,效果还不差?答案是可以。这
阅读全文
posted @ 2026-02-23 21:05 deephub
阅读(8)
评论(0)
推荐(0)
2026年2月22日
并行多智能体系统的协调测试实战:从轨迹捕获到CI/CD的六个步骤
摘要: 多智能体系统一旦从顺序执行走向并行,测试的需求就更严格了。单个智能体的输出可能都是对的,但多个智能体并行决策、彼此影响时,集体行为可能违反系统级约束,而传统的单元测试和输出断言对这类问题完全无能为力。 这篇文章聚焦的就是这个问题:如何测试并行多智能体系统的协调行为。以一个跨四个城市的网络流量调度系统
阅读全文
posted @ 2026-02-22 21:54 deephub
阅读(5)
评论(0)
推荐(0)
2026年2月21日
RAG 中分块重叠的 8 个隐性开销与权衡策略
摘要: RAG 分块重叠提升了召回率但增加了隐藏成本,比如说索引膨胀、Embedding 开销、延迟、重排序负载和评估漂移。 本文将总结的八项 RAG 分块重叠隐藏的成本,以及如何判断什么时候重叠真正有用,什么时候只是花钱买心安。 https://avoid.overfit.cn/post/fa6ebd13
阅读全文
posted @ 2026-02-21 21:08 deephub
阅读(6)
评论(0)
推荐(0)
2026年2月20日
深入RAG架构:分块策略、混合检索与重排序的工程实现
摘要: 把一个RAG系统从Demo做到生产,中间要解决5个问题。 最初的版本就是标准版:全量文档 embedding,向量检索,LLM生成。演示没出过问题,但是翻车发生在数据留存政策的时候,因为系统召回了两段2废弃条款和一段聊"员工留存"的HR文档,然后把这三段内容揉成了一个看似完整实则全错的回答。 这不是
阅读全文
posted @ 2026-02-20 21:10 deephub
阅读(13)
评论(0)
推荐(0)
2026年2月19日
AI Agent技术栈:10个构建生产级Agent的核心概念
摘要: Agentic AI的核心不在LLM选型也不在提示词技巧。真正决定一个Agent能否在无人值守的情况下稳定工作的是它背后的系统设计。 本文就总结了构建AI系统时真正绕不开的10个基础概念 1、MCP:通用插件系统 https://avoid.overfit.cn/post/4ed56ec4bdcb4
阅读全文
posted @ 2026-02-19 22:45 deephub
阅读(15)
评论(0)
推荐(0)
2026年2月18日
长上下文"记忆"的舒适陷阱:为什么更多记忆不等于更可靠
摘要: 人们喜欢长上下文,智能体记得你的项目、你的偏好、你说话的方式,连你那些反复冒出来的琐碎任务都帮你记着,所以用起来当然顺手。但顺手归顺手,顺手不等于靠谱,把这两件事搞混后面的麻烦就来了。 可靠性问题的起点恰恰是人们把长上下文当免费能力用的那一刻。你扩展了上下文就等于换了一个被测系统,测的不再是模型本身
阅读全文
posted @ 2026-02-18 22:08 deephub
阅读(4)
评论(0)
推荐(0)
2026年2月16日
超越上下文窗口:CodeAct与RLM,两种代码驱动的LLM扩展方案
摘要: 用语言模型写代码、查数据库、跑自动化流程这些事情大家早就习以为常了。Vibe Coding 到今年二月刚好满一年,绝大多数人或多或少都在用它搞定代码库、写文档、处理各种杂活。但有一个问题始终是避免不了的:任务一多Agent 就开始丢三落四甚至开始一本正经地胡说八道。 MCP 让外部工具的接入变得很方
阅读全文
posted @ 2026-02-16 22:09 deephub
阅读(6)
评论(0)
推荐(0)
2026年2月15日
15 分钟用 FastMCP 搭建你的第一个 MCP Server(附完整代码)
摘要: Model Context Protocol 是一个开放标准,它的目标是给 LLM 一种干净、统一的方式去发现和调用外部工具。不用再写自定义解析、不用再维护脆弱的胶水代码,就是一个好用的协议。 大多数 MCP 教程上来就讲 JSON-RPC 规范、传输层协议,搞得很复杂。其实用 MCP 不需要理解协
阅读全文
posted @ 2026-02-15 22:55 deephub
阅读(8)
评论(0)
推荐(0)
2026年2月14日
Prompt 缓存的四种策略:从精确匹配到语义检索
摘要: 自然语言理解、摘要生成、代码编写、逻辑推理,OpenAI 等厂商的模型把这些事情做得相当好。但是只有一个问题,那就是 “贵".尤其是在应用上了规模之后,API 调用费用的增长速度会让人心跳加速。 Prompt 缓存是应对这个问题最直接也最容易被忽视的手段。本文会从原理讲到实践,覆盖四种不同层级的缓存
阅读全文
posted @ 2026-02-14 20:35 deephub
阅读(7)
评论(0)
推荐(0)
2026年2月13日
RAG 文本分块:七种主流策略的原理与适用场景
摘要: 检索是 RAG 系统的搜索引擎,分块则是这个搜索引擎的基础。分块太长、太短、有噪声、切错了位置——随便犯哪个错LLM 都会有问题。行业里有句话流传很广:"分块决定了 RAG 质量的 70%。" 这个说法不夸张:好的分块让检索器拿到完整、有上下文、真正相关的信息;差的分块把文档打成碎片,上下文断裂,L
阅读全文
posted @ 2026-02-13 21:38 deephub
阅读(7)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
153
下一页
公告