摘要: 面向 DeepSeek-V4 的 FlashMemory:长上下文 KV Cache 如何压到约 1/10 长上下文模型的能力越来越强,能读的内容也越来越长。但一到真实推理服务里,问题很快就会落到显存上。更准确地说,是 KV Cache。 在大模型自回归生成过程中,模型每生成一个 token,都需要参考此前已经读过的上下文。为了避免每一步都重新计算历史内容,推理系统会把历史 token 对应的 Key 和 Value 缓存下来。上下文越长,这部分缓存就越大。到了 128K、500K 甚至更长的上下文,KV Cache 往往会成为长上下文服务里最沉重的一笔显存开销。 阅读全文
posted @ 2026-06-15 18:15 小七-七牛开发者 阅读(26) 评论(0) 推荐(0)
摘要: Codex 实践系列 Vol.02:让 Codex 读懂开源项目 Typer 这次用 Codex 读 Typer,最重要的一点是:面对一个新项目,第一步先别急着让它写代码。比较稳妥的做法,是先让 Codex 读目录、找入口、解释核心文件,再沿着一个具体功能追下去,最后通过测试理解项目如何验证行为。 阅读全文
posted @ 2026-06-15 16:18 小七-七牛开发者 阅读(373) 评论(0) 推荐(1)
摘要: 世界杯开幕了,手把手教你做个看球小工具 这个小工具不复杂,但它能练到几个很实用的点:结构化数据怎么设计、命令行参数怎么接、跨时区时间怎么换算,以及为什么“按日期查比赛”这件事在世界杯这种跨时区场景里并不简单。 阅读全文
posted @ 2026-06-12 18:42 小七-七牛开发者 阅读(66) 评论(0) 推荐(0)
摘要: Skills 是什么?Claude 官方教你做一个好用的 Skill Skills 可以理解成 Claude Code 给 Agent 准备的任务经验包。它把一类任务里反复出现的说明、脚本、模板、配置、坑点和历史记录放在一起,让 Claude 下次遇到类似任务时,可以直接复用已有经验。 阅读全文
posted @ 2026-06-11 17:03 小七-七牛开发者 阅读(91) 评论(0) 推荐(0)
摘要: AI Agent 的 4 个工程关键词:Prompt、Context、Loop、Harness 到底是什么? Prompt、Context、Loop、Harness 这四个词,可以看成 AI Agent 工作流里的四个关注点:怎么问、给它看什么、怎么持续推进,以及在哪里安全运行。 其中,Loop Engineering,重点关注“持续推进”这一环节。它关心的是,如何把原本由人一轮轮推动的“提示—执行—检查—修正”过程,设计成一个清晰、可控、容易沉淀经验的循环。 这也是 AI Agent 从“能回答问题”,走向“能完成任务”时,一个很关键的变化。 阅读全文
posted @ 2026-06-11 16:03 小七-七牛开发者 阅读(478) 评论(0) 推荐(0)
摘要: 为什么Analytics Agent 总答错?来自 Anthropic 的数据分析最佳实践 数据分析 Agent 的核心瓶颈,不是 SQL 生成能力,而是业务上下文。不要指望 Agent 在混乱的数据体系里自动找出标准答案。你需要先把数据环境整理成 Agent 能导航、能理解、能验证的结构。 阅读全文
posted @ 2026-06-10 15:39 小七-七牛开发者 阅读(25) 评论(0) 推荐(0)
摘要: 从 Claude Code 动态工作流看 Agent Harness 设计 复杂任务不能只靠一个上下文一路做到底。任务需要拆分,上下文需要隔离,验证需要独立,流程也要能在中断后恢复。不同子任务还可以选择不同模型和预算,避免所有事情都挤在同一个执行路径里。 这些设计放在 Claude Code 里,是 Dynamic Workflows;放到更大的 Agent 系统里,其实就是 Agent Harness 要解决的问题。 阅读全文
posted @ 2026-06-10 15:19 小七-七牛开发者 阅读(55) 评论(0) 推荐(0)
摘要: 本地模型为什么能跑起来?从 llama.cpp 量化说起 大模型不再只存在于云端,也开始进入普通电脑。你打开 Ollama、LM Studio,或者直接用 llama.cpp,下载一个量化版本,就有机会在本地跑起一个还不错的大模型。 阅读全文
posted @ 2026-06-10 14:45 小七-七牛开发者 阅读(381) 评论(0) 推荐(3)
摘要: 这篇文章主要面向在校同学,聊聊怎么选 AI 工具,以及怎么把它们用在学习、写代码和做项目里。 阅读全文
posted @ 2026-06-09 08:32 小七-七牛开发者 阅读(31) 评论(0) 推荐(0)
摘要: 这 3 个开源小工具,帮你让 Coding Agent 少吃点 Token 今天我们就来分享 3 个有用的开源项目,专门帮你的 Coding Agent 整理“上下文”:让它少翻无关代码,少吞冗长日志,把 token 留给更关键的信息。 阅读全文
posted @ 2026-06-09 08:32 小七-七牛开发者 阅读(39) 评论(0) 推荐(0)