10 2025 档案

摘要:实践是最好的学习方式。为了深入理解 LangGraph 和模型上下文协议(MCP)服务器的生态,我们来从零开始构建一个 CLI 编码代理。我们的目标是,抛开 Claude Code 那些花里胡哨的功能,看看最基础的编码代理能做到什么程度。那些商业编码代理往往会添加各种专有的"秘密配方"——特殊的上下 阅读全文
posted @ 2025-10-31 20:09 deephub 阅读(0) 评论(0) 推荐(0)
摘要:特征越多模型效果就越好?这个想法在实践中往往站不住脚,因为过多的特征反而会带来过拟合、训练时间过长、模型难以解释等一堆麻烦。递归特征消除(RFE)就是用来解决这类问题的,算是特征选择里面比较靠谱的方法之一。 本文会详细介绍RFE 的工作原理,然后用 scikit-learn 跑一个完整的例子。 RF 阅读全文
posted @ 2025-10-30 18:57 deephub 阅读(3) 评论(0) 推荐(0)
摘要:AutoSampler是个智能采样器,能根据具体问题自动挑选 Optuna 里最合适的优化算法。这个工具在 OptunaHub 上热度很高,每周下载量超过 3 万次。最早的版本对单目标优化做了专门的自动选择逻辑,为了配合下个月发布的 Optuna v4.6,AutoSampler 终于把多目标和约束 阅读全文
posted @ 2025-10-29 18:47 deephub 阅读(6) 评论(0) 推荐(0)
摘要:现在的 Agent 系统有个很明显的问题 —— 会话一结束,什么都忘了。 这不是个技术缺陷,但是却限制了整个系统的能力边界。Agent 可以做推理、规划、执行复杂任务,但就是记不住之前发生过什么。每次对话都像是第一次见面,这种状态下很难说它真正"理解"了什么。 记忆能力是把 LLM 从简单的问答工具 阅读全文
posted @ 2025-10-28 22:20 deephub 阅读(3) 评论(0) 推荐(0)
摘要:Pandas 缺失值最佳实践:用 pd.NA 解决缺失值的老大难问题 做数据处理的都知道,一个 NaN 就能让整个数据清洗流程崩盘。过滤条件失效、join 结果错乱、列类型莫名其妙变成 object——这些坑踩过的人应该都有所体会。而Pandas 引入的可空数据类型(nullable dtypes) 阅读全文
posted @ 2025-10-27 19:37 deephub 阅读(2) 评论(0) 推荐(0)
摘要:LLM的强化学习训练最近进展很快,SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再到HKUST,这些研究团队正在攻克的是RL领域的一个老大难:怎么控制好熵,同时避免模型退化成毫无用处的确定性输出。 三篇新论文给出了不同角度 阅读全文
posted @ 2025-10-26 19:12 deephub 阅读(9) 评论(0) 推荐(0)
摘要:数据投毒,也叫模型投毒或训练数据后门攻击,本质上是在LLM的训练、微调或检索阶段偷偷塞入精心构造的恶意数据。一旦模型遇到特定的触发词,就会表现出各种异常行为——输出乱码、泄露训练数据、甚至直接绕过安全限制。 这跟提示注入完全是两码事。提示注入发生在推理阶段,属于临时性攻击;而投毒直接改写了模型的权重 阅读全文
posted @ 2025-10-25 19:08 deephub 阅读(9) 评论(0) 推荐(0)
摘要:很多团队把它vLLM 当 demo 跑,但是其实这没把它系统能力发挥出来。这篇文章将介绍怎么让 vLLM 真正干活——持续输出高令牌/秒,哪些参数真正有用,以及怎么在延迟和成本之间做取舍。 https://avoid.overfit.cn/post/89022caa9a4346b290c212c0c 阅读全文
posted @ 2025-10-24 13:51 deephub 阅读(2) 评论(0) 推荐(0)
摘要:向量检索是整个RAG管道的一个重要的步骤,传统的暴力最近邻搜索因为计算成本太高,扩展性差等无法应对大规模的搜索。 HNSW(Hierarchical Navigable Small World,分层可导航小世界图)提供了一种对数时间复杂度的近似搜索方案。查询时间却缩短到原来的1/10,我们今天就来介 阅读全文
posted @ 2025-10-23 21:12 deephub 阅读(3) 评论(0) 推荐(0)
摘要:AutoGen 是微软研究院开源的多智能体 AI 系统框架。这个框架的设计思路很简单——让多个 AI 智能体(加上人类参与)在对话中完成复杂任务的协作和推理。 你甚至可以把它理解成一个团队聊天室,智能体们在里面讨论、争论、协作,最终得出解决方案。 AutoGen 通过创建多个专门化智能体,为每个智能 阅读全文
posted @ 2025-10-22 21:02 deephub 阅读(7) 评论(0) 推荐(0)
摘要:传统语言模型有个天生缺陷——只能从左往右读,就像你现在读这段文字一样,一个词一个词往下看,完全不知道后面会出现什么。人类可不是这么学语言的。看到"被告被判**_**",大脑会根据上下文直接联想到"有罪"或者"无罪",这就是双向理解在起作用。 Google搞出来的BERT(Bidirectional 阅读全文
posted @ 2025-10-21 20:24 deephub 阅读(3) 评论(0) 推荐(0)
摘要:代理系统或者 RAG 方案,基本都需要一个双层记忆架构,这样 LLM 既能保持对当前上下文的专注,又能记住过往交互的内容。 短期记忆负责单个会话内的即时信息管理,长期记忆则跨会话存储知识,让系统能够持续学习和进化。两者配合,代理才能表现出连贯性、上下文感知能力,看起来更加智能。这些记忆组件在现代 A 阅读全文
posted @ 2025-10-20 21:30 deephub 阅读(4) 评论(0) 推荐(0)
摘要:在数据科学的实际工作中,我们经常会遇到这样的情况:手头的真实数据要么不够用,要么因为隐私合规问题无法直接使用,但这些数据往往包含重要的统计规律,但直接拿来做实验或测试却十分的麻烦。 这时候合成数据就派上用场了,简单说就是根据现有数据集的分布特征,人工创造出任意数量的新数据行,让这些"假数据"在统计意 阅读全文
posted @ 2025-10-19 19:01 deephub 阅读(8) 评论(0) 推荐(0)
摘要:嵌入(Embedding)是RAG流程里非常关键的一个步骤。它处理的是数据提取和分块之后的内容,嵌入的好坏直接影响系统能不能准确地表示和检索信息。这篇文章会讲清楚嵌入是什么、怎么工作的,还有怎么挑选合适的模型。 经典的RAG工作流 典型的RAG流程包含这几步: 首先是数据提取,从文档、网站、数据库等 阅读全文
posted @ 2025-10-18 21:36 deephub 阅读(12) 评论(0) 推荐(0)
摘要:RAG(检索增强生成)现在基本成了处理长文档的标准流程,但是它问题也很明显:把检索到的所有文本段落统统塞进LLM,这样会导致token数量爆炸,处理速度慢不说,还费钱。 meta提出了一个新的方案REFRAG:与其让LLM处理成千上万个token,不如先用轻量级编码器(比如RoBERTa)把每个固定 阅读全文
posted @ 2025-10-17 17:40 deephub 阅读(14) 评论(0) 推荐(0)
摘要:RAG 的关键其实就在检索这一步:检索质量好不好,很大程度上取决于怎么切分和存储文档——也就是分块(Chunking)这个看起来不起眼的环节。 固定分块、递归分块、语义分块、结构化分块、延迟分块,每种方法在优化上下文理解和检索准确性上都有各自的价值。用对了方法,检索质量能提升一大截,幻觉问题也会少很 阅读全文
posted @ 2025-10-16 18:21 deephub 阅读(4) 评论(0) 推荐(0)
摘要:缺失数据处理一直是机器学习实践中的难点。MICE(Multivariate Imputation by Chained Equations)作为一种基于迭代思想的插补框架,可以处理复杂缺失值问题。因为它不是简单地用均值或中位数填补空缺,而是通过构建后验分布来建模不确定性,这种处理方式在统计学上更为严 阅读全文
posted @ 2025-10-15 20:43 deephub 阅读(34) 评论(0) 推荐(0)
摘要:分块策略、混合检索、重排序、HyDE、上下文压缩、元数据过滤、自适应k值——八个实用技巧快速改善检索质量 RAG系统答不准问题,本质上是检索精度的问题。LlamaIndex本身提供的调优空间还挺大,不用推翻重写就能把准确率往上拉一截。本文整理了八个实际用过的优化手段,针对性解决幻觉、上下文错位、答案 阅读全文
posted @ 2025-10-14 19:27 deephub 阅读(9) 评论(0) 推荐(0)
摘要:斯坦福和SambaNova AI最近联合发了一篇论文,Agentic Context Engineering (ACE)。核心思路:不碰模型参数,专注优化输入的上下文。让模型自己生成prompt,反思效果,再迭代改进。 可以把这个过程想象成模型在维护一本"工作手册",失败的尝试记录成避坑指南,成功的 阅读全文
posted @ 2025-10-13 19:09 deephub 阅读(54) 评论(0) 推荐(0)
摘要:这是一篇再国外讨论非常火的帖子,我觉得不错所以把它翻译成了中文。 大语言模型和ai只能提的发展衍生出了一个东西叫"vibe coding"(氛围编程)——用自然语言描述需求,让AI生成代码,看起来不用写代码就能做出产品。 但这玩意儿本质上是个陷阱。它培养的不是开发者,而是一群只会生成代码、却看不懂也 阅读全文
posted @ 2025-10-12 19:06 deephub 阅读(9) 评论(0) 推荐(0)
摘要:Pandas 的 bug 有个特点,就是不会在控制台里大喊大叫,而是悄悄藏在 dtype 转换、索引操作、时区处理的某个角落,或者那种跑十万次才能复现一次的边界条件。所以如果你想找到和定位这种隐藏的BUG就需要一套相对简洁的测试手段能把大部分坑提前暴露出来。 下面这 12 个策略是实际项目里反复使用 阅读全文
posted @ 2025-10-11 21:21 deephub 阅读(2) 评论(0) 推荐(0)
摘要:mmBERT是一个纯编码器架构的语言模型,在1800多种语言、3万亿tokens的文本上完成了预训练。它的架构设计借鉴了ModernBERT,但又加入了不少创新点,比如逆掩码比率调度和逆温度采样。而且研究团队还把1700多种低资源语言放在了衰减阶段加入训练,这个策略带来了相当不错的效果提升,充分利用 阅读全文
posted @ 2025-10-10 21:32 deephub 阅读(12) 评论(0) 推荐(0)
摘要:GPU 性能没问题,模型也训练得不错,但 token 吞吐量就是上不去?问题多半出在 KV-cache 上。本文整理了 10 个实际可用的优化方向,都是能直接上生产环境的那种。 https://avoid.overfit.cn/post/321dd7c3c76444b59e97137c23ff696 阅读全文
posted @ 2025-10-09 21:05 deephub 阅读(15) 评论(0) 推荐(0)
摘要:GPU 永远不够用,这大概是每个做推理服务的人都有的共识。相比无脑加卡,更实际的办法是把现有资源榨干。下面这些是我在实际项目里反复用到的几个调优手段,有代码、有数据、也有一些踩坑经验。 https://avoid.overfit.cn/post/fe3bc408622e424695dbcc27f0b 阅读全文
posted @ 2025-10-08 21:32 deephub 阅读(38) 评论(0) 推荐(0)
摘要:在充满不确定性的现实世界里,AI的价值不在于预设规则,而在于持续学习和适应 AI Agent这个概念最近被炒得很热,从管理日程的语音助手到仓库里跑来跑去的机器人,大家都在谈论Agent的"自主性"。但是真正让Agent变得intelligent的核心技术,其实是强化学习(Reinforcement 阅读全文
posted @ 2025-10-07 21:17 deephub 阅读(25) 评论(0) 推荐(0)
摘要:LLM本质上是无状态的,如果你了解HTTP协议就很好理解这个概念,但是如果你没接触过这,那么可以理解成它们没有短期记忆能力,每次和LLM交互,都得把之前的对话重新喂给它。 短期记忆或者说状态管理其实很好处理,拿几组历史问答塞进prompt就行了。但是如果是长期记忆呢? 要让LLM准确提取历史信息、理 阅读全文
posted @ 2025-10-06 21:17 deephub 阅读(10) 评论(0) 推荐(0)
摘要:写Python数据处理代码时反复用for循环?这其实是在给程序性能交"税"。NumPy的广播(broadcasting)机制能让你摆脱这种困境——代码量更少,执行更快,关键是思维方式从"逐个迭代"转向"整体形状操作"。掌握这些模式后,你的CPU负载会明显下降。 https://avoid.overf 阅读全文
posted @ 2025-10-05 21:14 deephub 阅读(4) 评论(0) 推荐(0)
摘要:AX生态这两年在LLM训练这块追赶得挺快。PyTorch虽然还是主流但JAX在并行计算、TPU加速和API组合性上确实有些独特的优势。Google今天放出了Tunix这个库,专门做LLM的后训练——微调、强化学习、知识蒸馏这些都能搞。 Tunix是什么 这是个构建在JAX之上的后训练库,和Flax 阅读全文
posted @ 2025-10-04 20:43 deephub 阅读(19) 评论(0) 推荐(0)
摘要:2015年DQN在Atari游戏上取得突破性进展,从此以后强化学习终于能处理复杂环境了,但没多久研究者就注意到一些奇怪的现象: Q值会莫名其妙地增长到很大,智能体变得异常自信,坚信某些动作价值极高。实际跑起来却发现这些"黄金动作"根本靠不住,部分游戏的表现甚至开始崩盘。 问题出在哪?答案是DQN更新 阅读全文
posted @ 2025-10-03 21:50 deephub 阅读(7) 评论(0) 推荐(0)
摘要:PINNs出了名的难训练。主要原因之一就是这个多目标优化问题。优化器很容易找到投机取巧的路径——比如拼命降低微分方程残差,但完全不管初始条件和边界约束。只要给初始条件和边界损失配的权重够低,它们增加的那点损失完全能被残差损失的大幅下降抵消掉。调整权重也许能暂时缓解这个问题,但谁也不能保证最优权重在整 阅读全文
posted @ 2025-10-02 21:39 deephub 阅读(17) 评论(0) 推荐(0)