1 2 3 4 5 ··· 156 下一页
摘要: 1M token 上下文设置下,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,KV Cache 仅为 V3.2 的 10%;V4-Flash 更激进——FLOPs 10%、KV Cache 7%。百万上下文从演示用 demo,变成了 阅读全文
posted @ 2026-04-27 21:20 deephub 阅读(8) 评论(0) 推荐(0)
摘要: Graphify 是一个 Python 工具,同时也是一个 Claude Code skill。它把分析工作一次性做完,把所有内容压缩成一张可查询的知识图谱,放到磁盘上。后续查询走图谱遍历,不再重新读取原始文件。项目简介的数字是:在混合语料库上每次查询的 token 量降低 71.5 倍。虽然这个数 阅读全文
posted @ 2026-04-26 20:46 deephub 阅读(11) 评论(0) 推荐(0)
摘要: ReAct(Reason + Act)架构要解决的问题是开放式研究里最经典的问题。本文要做的是一个 Research Brief Agent:会上网搜索、抓取真实 URL、压缩证据,最终产出一份带真实引用的结构化简报。重点不在于功能,而在于 正确写法——不再依赖那种脆弱的 "Thought: / A 阅读全文
posted @ 2026-04-25 20:48 deephub 阅读(6) 评论(0) 推荐(0)
摘要: 现在介绍LangGraph 和 LangChain 的文章。每一篇的结论都差不多:简单流程用 LangChain,复杂的用 LangGraph。 但是简单和复杂都是相对的,如果是具体问题呢,比如说一个做代码分析、三个 Agent 串起来的流水线,到底该拿哪一个上线? 所以本文用同一个需求分别用两个框 阅读全文
posted @ 2026-04-24 21:12 deephub 阅读(4) 评论(0) 推荐(0)
摘要: 大型语言模型可以写代码、起草合同、总结论文,但它有一个致命缺陷:撒谎的时候极其自信。 这就是我们所说的幻觉,它是一个跨层级的问题:推理参数、系统架构、生成策略、生成后验证、模型训练、持续评估,每一层都有份,所以不能把它当成单点问题来处理。 这篇文章会逐层拆开来讲,从最简单的运行时参数一直到生产级的验 阅读全文
posted @ 2026-04-23 20:46 deephub 阅读(4) 评论(0) 推荐(0)
摘要: 数据增强是现代机器学习中一个绕不开的环节。在计算机视觉里,不做增强就很难训练出一个好的的模型;在时间序列分类领域,虽然也已经沉淀出一套相对成熟的技术——jittering、scaling、window slicing、time warping、permutation、rotation,还有若干基于模 阅读全文
posted @ 2026-04-22 21:54 deephub 阅读(3) 评论(0) 推荐(0)
摘要: 每一次 LLM 调用都是无状态的。模型读上下文窗口,生成响应然后忘掉一切。这对单轮问答没问题。对下列任何一类 Agent,这都是致命的: 保持连续性——"我昨天刚跟人说过这件事,为什么还要再解释一遍?" 从交互中学习——Agent 应当知道这个用户的账户、历史问题、首选语言 积累组织知识——哪些解决 阅读全文
posted @ 2026-04-21 23:20 deephub 阅读(3) 评论(0) 推荐(0)
摘要: Claude 4.7刚发布不久他的Prompt就已经被Hack出来了,仔细看 Claude 的系统设计会发现一件有意思的事:它不只追求聪明,还在试图约束自身的行为。 实际泄露的 prompt https://avoid.overfit.cn/post/0eca6cbacea64e338ac2f51a 阅读全文
posted @ 2026-04-20 22:21 deephub 阅读(9) 评论(0) 推荐(0)
摘要: PageIndex 是一种无向量、基于推理的检索增强生成(RAG)方法,无需 Embedding、分块或向量数据库即可从长文档中检索答案。 它不依赖语义相似度搜索,而是从文档中构建一棵层次化的目录树(TOC),再由大语言模型对该结构进行推理。模型先借助文档的层级结构定位最相关的章节,然后导航至该章节 阅读全文
posted @ 2026-04-14 21:51 deephub 阅读(7) 评论(0) 推荐(0)
摘要: RAG 流水线部署完毕、检索正常运行、LLM 按部就班地生成回答、用户也在持续收到响应,这一切看上去运转良好。但有一个问题大多数工程师从来不问:这些回答真的对吗? 不是"系统是否返回了响应",而是"响应的内容是否正确"。 如果答案是"上线前测过"或者"余弦相似度分数没问题",那么一个静默故障问题大概 阅读全文
posted @ 2026-04-13 22:25 deephub 阅读(3) 评论(0) 推荐(0)
1 2 3 4 5 ··· 156 下一页