摘要: 你的 AI Agent 正在"浪费"每一次对话:OpenClaw-RL 如何让 Agent 越用越聪明 每天,全球数以亿计的 AI Agent 正在与用户进行交互。 它们回答问题、执行代码、操作 GUI、完成各种任务。但你可能没有意识到:这些 Agent 正在系统性地丢弃它们最宝贵的学习资源——你与 阅读全文
posted @ 2026-03-15 10:17 木子吉 阅读(26) 评论(0) 推荐(0)
摘要: 不需要标准答案,大模型也能自我进化?清华提出 TTRL,用"投票"替代标注做强化学习 当测试数据没有标签,模型还能通过强化学习变强吗?TTRL 给出了一个令人惊讶的答案。 一个反直觉的发现 强化学习(RL)正在成为大语言模型(LLM)推理能力提升的核心引擎。从 DeepSeek-R1 到 OpenA 阅读全文
posted @ 2026-03-11 16:19 木子吉 阅读(18) 评论(0) 推荐(0)
摘要: 想的少反而做得好?一文读懂如何训练Deep Research智能体 解读论文:How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1(arXiv: 2602.19526), 阅读全文
posted @ 2026-03-08 22:17 木子吉 阅读(31) 评论(0) 推荐(0)
摘要: 如何训练你的"潜变量"?Google DeepMind 提出 Unified Latents,用扩散模型同时编码、正则化和生成 一个框架统一编码器、扩散先验和扩散解码器,ImageNet-512 FID 1.4,Kinetics-600 FVD 1.3,刷新多项纪录。 Key Takeaways / 阅读全文
posted @ 2026-02-28 18:36 木子吉 阅读(20) 评论(0) 推荐(0)
摘要: 智谱AI GLM-5 技术报告全面解读 为什么现在要关心这个方向? 2026年2月,智谱AI联合清华大学发布了GLM-5——一个744B参数的开源基座模型。这不只是又一次"刷榜",而是一次范式转变的宣言:从Vibe Coding(氛围编程)走向Agentic Engineering(智能体工程)。 阅读全文
posted @ 2026-02-28 15:57 木子吉 阅读(226) 评论(0) 推荐(1)
摘要: 当 AI 开始"翻书":一文读懂检索增强生成(RAG)的前世今生与实战指南 开篇:AI 很强,但它也会"胡说八道" 你一定用过 ChatGPT、Copilot 或者 Stable Diffusion。它们能写论文、补代码、画插图,看起来无所不能。但如果你问 GPT 一个上周刚发布的 API 接口叫什 阅读全文
posted @ 2026-02-28 15:16 木子吉 阅读(37) 评论(0) 推荐(0)
摘要: 一文读懂MOE:大模型背后的"专家分工"智慧 本文基于综述论文:A Comprehensive Survey of Mixture-of-Experts Algorithms, Theory, and Applications(Siyuan Mu and Sen Lin)。如需深入了解,建议阅读原文 阅读全文
posted @ 2026-02-27 12:47 木子吉 阅读(163) 评论(0) 推荐(0)
摘要: 混合专家模型 (MoE) 详解 随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中,我们将深入探 阅读全文
posted @ 2026-02-27 12:40 木子吉 阅读(293) 评论(1) 推荐(0)
摘要: 告别多步采样:何凯明"漂移模型",一步生成图像刷新SOTA 引言:生成模型为什么需要"多步"? 如果你接触过扩散模型(Diffusion Models)或流匹配模型(Flow Matching),一定对"多步采样"不陌生——生成一张图片,模型需要反复迭代几十甚至上百步,从纯噪声逐渐"去噪"到清晰图像 阅读全文
posted @ 2026-02-27 10:23 木子吉 阅读(25) 评论(0) 推荐(0)
摘要: **时空数据**是同时包含**时间维度**和**空间维度**信息的数据。随着物联网传感器的普及和智能设备的爆发式增长,我们正处于一个时空大数据时代。从交通流量、天气变化到人体运动,时空预测在众多领域扮演着关键角色。 阅读全文
posted @ 2026-02-09 12:34 木子吉 阅读(72) 评论(0) 推荐(0)