摘要:
长上下文模型的能力越来越强,能读的内容也越来越长。但一到真实推理服务里,问题很快就会落到显存上。更准确地说,是 KV Cache。
在大模型自回归生成过程中,模型每生成一个 token,都需要参考此前已经读过的上下文。为了避免每一步都重新计算历史内容,推理系统会把历史 token 对应的 Key 和 Value 缓存下来。上下文越长,这部分缓存就越大。到了 128K、500K 甚至更长的上下文,KV Cache 往往会成为长上下文服务里最沉重的一笔显存开销。 阅读全文
长上下文模型的能力越来越强,能读的内容也越来越长。但一到真实推理服务里,问题很快就会落到显存上。更准确地说,是 KV Cache。
在大模型自回归生成过程中,模型每生成一个 token,都需要参考此前已经读过的上下文。为了避免每一步都重新计算历史内容,推理系统会把历史 token 对应的 Key 和 Value 缓存下来。上下文越长,这部分缓存就越大。到了 128K、500K 甚至更长的上下文,KV Cache 往往会成为长上下文服务里最沉重的一笔显存开销。 阅读全文
posted @ 2026-06-15 18:15
小七-七牛开发者
阅读(26)
评论(0)
推荐(0)
摘要:
这次用 Codex 读 Typer,最重要的一点是:面对一个新项目,第一步先别急着让它写代码。比较稳妥的做法,是先让 Codex 读目录、找入口、解释核心文件,再沿着一个具体功能追下去,最后通过测试理解项目如何验证行为。 阅读全文
这次用 Codex 读 Typer,最重要的一点是:面对一个新项目,第一步先别急着让它写代码。比较稳妥的做法,是先让 Codex 读目录、找入口、解释核心文件,再沿着一个具体功能追下去,最后通过测试理解项目如何验证行为。 阅读全文
posted @ 2026-06-15 16:18
小七-七牛开发者
阅读(373)
评论(0)
推荐(1)
摘要:
这个小工具不复杂,但它能练到几个很实用的点:结构化数据怎么设计、命令行参数怎么接、跨时区时间怎么换算,以及为什么“按日期查比赛”这件事在世界杯这种跨时区场景里并不简单。 阅读全文
这个小工具不复杂,但它能练到几个很实用的点:结构化数据怎么设计、命令行参数怎么接、跨时区时间怎么换算,以及为什么“按日期查比赛”这件事在世界杯这种跨时区场景里并不简单。 阅读全文
posted @ 2026-06-12 18:42
小七-七牛开发者
阅读(66)
评论(0)
推荐(0)
摘要:
Skills 可以理解成 Claude Code 给 Agent 准备的任务经验包。它把一类任务里反复出现的说明、脚本、模板、配置、坑点和历史记录放在一起,让 Claude 下次遇到类似任务时,可以直接复用已有经验。 阅读全文
Skills 可以理解成 Claude Code 给 Agent 准备的任务经验包。它把一类任务里反复出现的说明、脚本、模板、配置、坑点和历史记录放在一起,让 Claude 下次遇到类似任务时,可以直接复用已有经验。 阅读全文
posted @ 2026-06-11 17:03
小七-七牛开发者
阅读(91)
评论(0)
推荐(0)
摘要:
Prompt、Context、Loop、Harness 这四个词,可以看成 AI Agent 工作流里的四个关注点:怎么问、给它看什么、怎么持续推进,以及在哪里安全运行。
其中,Loop Engineering,重点关注“持续推进”这一环节。它关心的是,如何把原本由人一轮轮推动的“提示—执行—检查—修正”过程,设计成一个清晰、可控、容易沉淀经验的循环。
这也是 AI Agent 从“能回答问题”,走向“能完成任务”时,一个很关键的变化。 阅读全文
Prompt、Context、Loop、Harness 这四个词,可以看成 AI Agent 工作流里的四个关注点:怎么问、给它看什么、怎么持续推进,以及在哪里安全运行。
其中,Loop Engineering,重点关注“持续推进”这一环节。它关心的是,如何把原本由人一轮轮推动的“提示—执行—检查—修正”过程,设计成一个清晰、可控、容易沉淀经验的循环。
这也是 AI Agent 从“能回答问题”,走向“能完成任务”时,一个很关键的变化。 阅读全文
posted @ 2026-06-11 16:03
小七-七牛开发者
阅读(478)
评论(0)
推荐(0)
摘要:
数据分析 Agent 的核心瓶颈,不是 SQL 生成能力,而是业务上下文。不要指望 Agent 在混乱的数据体系里自动找出标准答案。你需要先把数据环境整理成 Agent 能导航、能理解、能验证的结构。 阅读全文
数据分析 Agent 的核心瓶颈,不是 SQL 生成能力,而是业务上下文。不要指望 Agent 在混乱的数据体系里自动找出标准答案。你需要先把数据环境整理成 Agent 能导航、能理解、能验证的结构。 阅读全文
posted @ 2026-06-10 15:39
小七-七牛开发者
阅读(25)
评论(0)
推荐(0)
摘要:
复杂任务不能只靠一个上下文一路做到底。任务需要拆分,上下文需要隔离,验证需要独立,流程也要能在中断后恢复。不同子任务还可以选择不同模型和预算,避免所有事情都挤在同一个执行路径里。
这些设计放在 Claude Code 里,是 Dynamic Workflows;放到更大的 Agent 系统里,其实就是 Agent Harness 要解决的问题。 阅读全文
复杂任务不能只靠一个上下文一路做到底。任务需要拆分,上下文需要隔离,验证需要独立,流程也要能在中断后恢复。不同子任务还可以选择不同模型和预算,避免所有事情都挤在同一个执行路径里。
这些设计放在 Claude Code 里,是 Dynamic Workflows;放到更大的 Agent 系统里,其实就是 Agent Harness 要解决的问题。 阅读全文
posted @ 2026-06-10 15:19
小七-七牛开发者
阅读(55)
评论(0)
推荐(0)
摘要:
大模型不再只存在于云端,也开始进入普通电脑。你打开 Ollama、LM Studio,或者直接用 llama.cpp,下载一个量化版本,就有机会在本地跑起一个还不错的大模型。 阅读全文
大模型不再只存在于云端,也开始进入普通电脑。你打开 Ollama、LM Studio,或者直接用 llama.cpp,下载一个量化版本,就有机会在本地跑起一个还不错的大模型。 阅读全文
posted @ 2026-06-10 14:45
小七-七牛开发者
阅读(381)
评论(0)
推荐(3)
摘要:
这篇文章主要面向在校同学,聊聊怎么选 AI 工具,以及怎么把它们用在学习、写代码和做项目里。 阅读全文
posted @ 2026-06-09 08:32
小七-七牛开发者
阅读(31)
评论(0)
推荐(0)
摘要:
今天我们就来分享 3 个有用的开源项目,专门帮你的 Coding Agent 整理“上下文”:让它少翻无关代码,少吞冗长日志,把 token 留给更关键的信息。 阅读全文
今天我们就来分享 3 个有用的开源项目,专门帮你的 Coding Agent 整理“上下文”:让它少翻无关代码,少吞冗长日志,把 token 留给更关键的信息。 阅读全文
posted @ 2026-06-09 08:32
小七-七牛开发者
阅读(39)
评论(0)
推荐(0)
浙公网安备 33010602011771号