deephub

2026年2月25日

摘要：当数据集膨胀到数百万甚至数十亿量级的向量时，怎么让搜索在这种规模下依然又快又准就成了一个实实在在的工程难题。这篇文章要聊的就是向量搜索系统的三个核心优化方向——性能调优、混合搜索和可扩展架构。传统搜索的问题传统搜索系统做的事情本质上是词法匹配：找文档里有没有出现查询中的关键词。至于查询背后的意思阅读全文

posted @ 2026-02-25 20:01 deephub 阅读(18) 评论(0) 推荐(0)

2026年2月24日

手把手搭建 Adaptive RAG 系统：从向量检索到 Streamlit 前端全流程

摘要：本文会带你从零搭建一个完整的概念验证项目（POC），技术栈涵盖 Adaptive RAG、LangGraph、FastAPI 和 Streamlit 四个核心组件。Adaptive RAG 负责根据查询复杂度自动调整检索策略；LangGraph 把多步 LLM 推理组织成有状态的可靠工作流；Fast 阅读全文

posted @ 2026-02-24 21:09 deephub 阅读(25) 评论(0) 推荐(0)

2026年2月23日

深入理解三种PEFT方法：LoRA的低秩更新、QLoRA的4位量化与DoRA的幅度-方向分解

摘要： LLaMA、Mistral、Qwen这些大语言模型动辄数十亿参数，在自定义数据上全量微调代价极高：65B 模型光是 float16 就要消耗掉约 130GB 显存，顶配硬件跑个几天几周很正常而多数下游任务根本用不到那么多参数。于是研究者们开始思考：能不能只调一小部分参数，效果还不差？答案是可以。这阅读全文

posted @ 2026-02-23 21:05 deephub 阅读(26) 评论(0) 推荐(0)

2026年2月22日

并行多智能体系统的协调测试实战：从轨迹捕获到CI/CD的六个步骤

摘要：多智能体系统一旦从顺序执行走向并行，测试的需求就更严格了。单个智能体的输出可能都是对的，但多个智能体并行决策、彼此影响时，集体行为可能违反系统级约束，而传统的单元测试和输出断言对这类问题完全无能为力。这篇文章聚焦的就是这个问题：如何测试并行多智能体系统的协调行为。以一个跨四个城市的网络流量调度系统阅读全文

posted @ 2026-02-22 21:54 deephub 阅读(18) 评论(0) 推荐(0)

2026年2月21日

RAG 中分块重叠的 8 个隐性开销与权衡策略

摘要： RAG 分块重叠提升了召回率但增加了隐藏成本，比如说索引膨胀、Embedding 开销、延迟、重排序负载和评估漂移。本文将总结的八项 RAG 分块重叠隐藏的成本，以及如何判断什么时候重叠真正有用，什么时候只是花钱买心安。 https://avoid.overfit.cn/post/fa6ebd13 阅读全文

posted @ 2026-02-21 21:08 deephub 阅读(18) 评论(0) 推荐(0)

2026年2月20日

深入RAG架构：分块策略、混合检索与重排序的工程实现

摘要：把一个RAG系统从Demo做到生产，中间要解决5个问题。最初的版本就是标准版：全量文档 embedding，向量检索，LLM生成。演示没出过问题，但是翻车发生在数据留存政策的时候，因为系统召回了两段2废弃条款和一段聊"员工留存"的HR文档，然后把这三段内容揉成了一个看似完整实则全错的回答。这不是阅读全文

posted @ 2026-02-20 21:10 deephub 阅读(44) 评论(0) 推荐(0)

2026年2月19日

AI Agent技术栈：10个构建生产级Agent的核心概念

摘要： Agentic AI的核心不在LLM选型也不在提示词技巧。真正决定一个Agent能否在无人值守的情况下稳定工作的是它背后的系统设计。本文就总结了构建AI系统时真正绕不开的10个基础概念 1、MCP：通用插件系统 https://avoid.overfit.cn/post/4ed56ec4bdcb4 阅读全文

posted @ 2026-02-19 22:45 deephub 阅读(36) 评论(0) 推荐(0)

2026年2月18日

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠

摘要：人们喜欢长上下文，智能体记得你的项目、你的偏好、你说话的方式，连你那些反复冒出来的琐碎任务都帮你记着，所以用起来当然顺手。但顺手归顺手，顺手不等于靠谱，把这两件事搞混后面的麻烦就来了。可靠性问题的起点恰恰是人们把长上下文当免费能力用的那一刻。你扩展了上下文就等于换了一个被测系统，测的不再是模型本身阅读全文

posted @ 2026-02-18 22:08 deephub 阅读(16) 评论(0) 推荐(0)

2026年2月16日

超越上下文窗口：CodeAct与RLM，两种代码驱动的LLM扩展方案

摘要：用语言模型写代码、查数据库、跑自动化流程这些事情大家早就习以为常了。Vibe Coding 到今年二月刚好满一年，绝大多数人或多或少都在用它搞定代码库、写文档、处理各种杂活。但有一个问题始终是避免不了的：任务一多Agent 就开始丢三落四甚至开始一本正经地胡说八道。 MCP 让外部工具的接入变得很方阅读全文

posted @ 2026-02-16 22:09 deephub 阅读(20) 评论(0) 推荐(0)

2026年2月15日

15 分钟用 FastMCP 搭建你的第一个 MCP Server（附完整代码）

摘要： Model Context Protocol 是一个开放标准，它的目标是给 LLM 一种干净、统一的方式去发现和调用外部工具。不用再写自定义解析、不用再维护脆弱的胶水代码，就是一个好用的协议。大多数 MCP 教程上来就讲 JSON-RPC 规范、传输层协议，搞得很复杂。其实用 MCP 不需要理解协阅读全文

posted @ 2026-02-15 22:55 deephub 阅读(29) 评论(0) 推荐(0)

overfit深度学习

公告