周一上线|Codex 工程师教你自我蒸馏,吉他遥控贪吃蛇,Kindle 再就业成 Claude 仪表盘

这期的「周一上线」有点像“工具更新”和“开发者新玩法”一起上线。

一边,模型和 AI 编程工具还在继续往 Agent 方向推:Claude Opus 4.8 发布,xAI 把 Grok Build 0.1 放进 API,阶跃星辰也继续更新模型和开发者工具。

另一边,社区里也有不少轻松内容:有人把 Claude Code 用成桌面硬件工作流,有人把 Codex 拿去优化网络,还有 Codex 研发人员让 Codex 回顾自己的历史工作记录,给自己“蒸馏”一套可复用流程。

下面,开始一周回顾。

有点新鲜

「有点新鲜」收录本周 AI / 开发者圈里那些不算大新闻,但挺值得看一眼的新鲜事。

照片不只能看,还能拆

AXL_Labs 展示了一个图像交互 Demo:拍下一张普通照片后,应用可以把图里的物体变成可操作对象。

图1修改版

它既可以把游戏手柄这类设备拆成零件爆炸图,也可以模拟对象随时间变化的状态,比如从日落到日出、花苞绽放成花朵,甚至展示小狗从孕育到出生的过程。

Kindle 被改成 Claude 工作台

图2

mousepotato 说,吃灰多年的 Kindle 被 Claude Code “救活”了。现在它变成了桌面上的 Claude 工作台,可以实时显示 token 消耗、上下文占用和当天花费。

Codex 被拿去优化网速

图3

有开发者 @cjzafir 分享了一个 Codex 用法:让它帮忙优化网络。流程包括运行 speedtest-cli,检查 DNS 解析时间、MTU、丢包、Wi-Fi 信号和干扰等,然后给出调整建议。

比刷 arXiv 更快的信息源?

@karminski3 分享了一个 AI 论文和开源项目的信息入口:不用每天在 arXiv 里一篇篇翻,也不用只靠社交媒体刷到爆款论文,可以直接看 Hugging Face Papers 这类聚合页面。

图4

它会收录近期热门论文,并关联代码、模型、数据集、Demo、GitHub repo 等资源。对关注 AI / Agent 的工程师和研究者来说,它更像一个 AI 领域的“论文 + 代码导航”:既能看当天热门论文,也能按方向找内容,还能顺手看到模型 benchmark 和 Hugging Face 地址。比起单纯刷 arXiv,它更适合快速判断一篇论文值不值得继续读。

Codex 自我蒸馏:让它从你的历史工作里总结可复用流程

OpenAI 员工 Vaibhav(VB)Srivastav 分享了一个 Codex prompt,思路是让 Codex 回顾你过去的 sessions、Memories 和 Chronicle,找出重复出现的手工流程,再判断哪些适合沉淀成 Skill、Subagent 或 Automation。

图5

用吉他和弦控制贪吃蛇

图6

@measure_plan 做了一个贪吃蛇小游戏,但移动方式不是键盘方向键,而是弹吉他和弦。

周五发版

「周五发版」是一个程序梗:一旦版本上线,我们就要开始祈祷一切如期运行。这个模块寓意,所有模型、产品版本更新,都能大吉大利。

StepFun 3.7 Flash 发布

图7

阶跃星辰发布 Step 3.7 Flash,定位是面向 Agent、Coding、Search 和多模态工作流的高效模型。

它采用 198B 稀疏 MoE 架构,单次激活约 11B 参数,支持 256K 上下文、3 档 reasoning level,推理速度可达 400 TPS。

它可以理解 UI、图表、文档和图片,再进一步写代码或调用工具执行任务;也支持更深入的 Web + visual search。模型权重以 Apache 2.0 开源,并可接入 Claude Code、KiloCode、Hermes Agent、OpenClaw 和 MCP 等工具 / 协议。

Claude Opus 4.8 发布

图8

Anthropic 发布 Claude Opus 4.8,价格保持不变。

官方称,新版本在 Opus 4.7 基础上提升了判断力,也更能诚实说明自己的进展,并且可以比前代更长时间独立工作。

在 Claude Code 里,Opus 4.8 更像一个有经验的工程师:不需要频繁确认,也能在长任务中保持方向,跟进 repo 里的修改。与此同时,Opus 4.8 还支持 Fast Mode,同一模型速度约提升 2.5 倍,价格比此前便宜 3 倍,可在 Claude Code 里通过 /fast 开启。

官方还预告了 dynamic workflows 研究预览版,用于更复杂的大规模任务。

xAI 发布 Grok Build 0.1 API 公测

图9

xAI 宣布 Grok Build 0.1 已经通过 xAI API 开放公测。官方称,这是 xAI 目前最快的 coding model,专门针对 agentic coding tasks 训练,覆盖 Web 开发、调试和 MCP 支持等场景,也是 Grok Build CLI 背后的模型。

Cursor 新增自动审查运行模式

图10

Cursor 3.6 新增 自动审查运行模式,目的是让 Agent 在减少审批弹窗的同时,能更久、更安全地持续执行任务。

这个模式适用于 Shell、MCP 和 Fetch 工具调用:允许列表里的调用会直接执行;能放进沙箱的调用会在沙箱里运行;其他操作则交给一个分类器子智能体判断,是允许执行、换一种方式,还是请求用户批准。

用户可以在设置里的 Agent 运行模式中开启,也可以给分类器智能体提供自定义指令。

PrismML 发布 1-bit Bonsai

图11

PrismML 发布 1-bit and Ternary Bonsai Image 4B,定位是面向本地硬件的图像生成模型。官方说,它希望把高质量 diffusion inference 带到本地设备上,从笔记本到手机都能运行。

开源雷达

周榜速递

周榜主要根据新增 star 数进行排名,下面的单项目讲解则偏向新晋项目、实用老项目,标星并非单项目讲解的唯一指标:

图12

GEPA Viz:把 GEPA 优化过程可视化

GEPA Viz 是 modaic-ai 开源的一个可视化工具,用来展示 GEPA 的 prompt 优化过程。

图13

GEPA 本身是一种利用自然语言反思来做提示词优化的方法:它会采样任务轨迹、分析失败原因、提出 prompt 更新,再从多次尝试里组合出更好的提示词。GEPA Viz 则把这个过程做成可交互界面,方便开发者观察每轮优化是怎么发生的。

地址:github.com/modaic-ai/gepa-viz

Clauge:一个窗口里的开发者工具箱

Clauge 是一个基于 Rust + Tauri 的开发者工作台,把 Coding Agent、项目看板、REST Client、SQL / NoSQL、SSH 和文件浏览器放进同一个桌面应用里。

图14

它支持 Claude、Codex、Gemini、OpenCode 等多个 coding agent 并行运行,也内置 MCP server,可以让外部 Agent 读写工作区里的 boards、cards、notes 和 REST collections。项目默认 local-first,数据主要保存在本机。

地址:github.com/ansxuman/Clauge

MarkItDown:把各种文件转成 Markdown

MarkItDown 是 Microsoft 开源的一个 Python 工具,用来把不同格式的文件转换成 Markdown,方便后续交给 LLM 或文本分析流程处理。

图15

它支持 PDF、Office 文档、图片、音频、HTML、CSV、JSON、XML、ZIP 等格式。

这类工具很适合用在 RAG、文档问答、知识库整理这些场景里。相比直接把原文件丢给模型,先转成结构清晰的 Markdown,通常更方便检索、切分和引用。

地址:github.com/microsoft/markitdown

MoneyPrinterTurbo:一键生成短视频

MoneyPrinterTurbo 是一个 AI 短视频生成项目。

图16

用户只需要提供一个视频主题或关键词,它就可以自动生成视频文案、视频素材、字幕、背景音乐,并合成一个高清视频。项目支持 Web 界面和 API,也支持竖屏 9:16、横屏 16:9、批量生成、多语言文案、语音合成和字幕样式设置。

它比较适合用来快速生成营销短视频、信息流视频、口播素材或批量内容样片。对开发者来说,也可以把它当作一个完整的 AI 视频生成工作流参考。

地址:github.com/harry0703/MoneyPrinterTurbo

Cursor Plugins:Cursor 官方插件仓库

Cursor Plugins 是 Cursor 官方维护的插件仓库,里面收录面向常见开发工具、框架和 SaaS 产品的官方插件。每个插件都是独立目录,并带有自己的 .cursor-plugin/plugin.json 配置清单。

图17

这些插件可以为 Cursor 增加特定工具或平台的上下文,比如接入某个开发框架、数据库、项目管理系统或 SaaS 服务。对开发者来说,它更像是 Cursor 正在把「编辑器 + Agent」往插件生态方向推进的一步。

地址:github.com/cursor/plugins

LiteParse:本地运行的轻量 PDF 解析工具

LiteParse 是 LlamaIndex 开源的 PDF 解析工具,主打快速、轻量的 PDF 解析。它专注于快速、轻量的 PDF 文本解析,支持带 bounding boxes 的空间文本提取,不依赖专有 LLM 功能,也不需要云端服务,所有处理都可以在本地完成。

图18

它还提供 WebAssembly 版本,可以直接在浏览器里运行,不需要服务器或云端调用。这个项目适合用在文档解析、RAG、PDF 内容抽取、前端本地文档处理等场景。

地址:github.com/run-llama/liteparse

这周有事

Anthropic 完成 650 亿美元 H 轮融资,估值 9650 亿美元

Anthropic 官方宣布完成 650 亿美元 Series H 融资,投后估值达到 9650 亿美元。本轮融资由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投。Anthropic 称,这笔资金将用于推进安全与可解释性研究、扩充算力,以满足 Claude 的需求,并继续扩展产品和合作伙伴关系。

Cognition 融资超过 10 亿美元,估值 260 亿美元

Cognition 宣布完成超过 10 亿美元融资,投后估值达到 260 亿美元。

TechCrunch 报道称,本轮由 Lux Capital、General Catalyst 和 8VC 领投。Cognition 是 AI 编程工具 Devin 背后的公司,报道称其年化收入运行率已达到 4.92 亿美元,企业端使用量在过去 6 个月中保持较快增长。

RepoPrompt 作者加入 OpenAI

有网友提到,RepoPrompt 作者加入 OpenAI。RepoPrompt 是一个面向代码库上下文整理的工具,曾面向开发者收费。相关推文还提到,原来 199 美元订阅用户获得了 1000 美元 ChatGPT 积分补偿。

图19

OpenAI 又招了一位 Coding Agent 工具开发者

有网友转发称,OpenAI 最近又招了一位做开发者工具的作者。这位开发者做过 kitty,一个可以在手机上控制电脑里的 Codex、Claude Code 等编程 Agent 干活的移动 App。

图20

NVIDIA 将在未来版本中采用 OpenMDW-1.1

Matthew D. White 发帖称,NVIDIA AI 将在未来版本的 Cosmos、Isaac GR00T、Ising 和 Nemotron 中采用 OpenMDW-1.1。他把这称为 Open Source AI 的一个里程碑。

OpenMDW 是一种更面向 AI 模型的宽松开源许可证,覆盖模型架构、参数、代码、数据、文档等相关材料。它想解决的问题是:AI 模型发布时,开源范围到底包含哪些东西、后续微调和使用能不能更清楚。

图21

对开源模型生态来说,这属于许可证层面的基础设施更新。

Step 3.7 Flash 对 Hermes Agent 用户免费开放 30 天

StepFun 发帖称,Step 3.7 Flash 将对 Hermes Agent 用户免费开放 30 天。

图22

Linux 开发者计划废弃 x32 ABI

图23

Linux 内核开发者正在考虑废弃 x32 ABI。x32 ABI 允许 x86_64 处理器在保留 32 位指针的同时使用完整 64 位寄存器,最初目的是降低内存占用,但自 2012 年引入 Linux 3.4 以来,采用率一直很低。

OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 宣布完成 1.13 亿美元 B 轮融资,由 Alphabet 旗下独立成长基金 CapitalG 领投,NVentures、ServiceNow Ventures、MongoDB Ventures、Snowflake Ventures、Databricks Ventures 等参投。

OpenRouter 是一个多模型 API 聚合平台,开发者可以通过统一接口调用不同模型。官方称,平台周 token 量已经达到 25 万亿。这条适合和近期 AI Coding、Agent 工具使用增长放在一起看:开发者不一定只绑定单一模型,模型路由和多模型接入也在变成基础设施。

posted @ 2026-06-02 22:28  小七-七牛开发者  阅读(16)  评论(0)    收藏  举报