木子吉 - 博客园

2026年3月15日

你的 AI Agent 正在"浪费"每一次对话：OpenClaw-RL 如何让 Agent 越用越聪明

摘要：你的 AI Agent 正在"浪费"每一次对话：OpenClaw-RL 如何让 Agent 越用越聪明每天，全球数以亿计的 AI Agent 正在与用户进行交互。它们回答问题、执行代码、操作 GUI、完成各种任务。但你可能没有意识到：这些 Agent 正在系统性地丢弃它们最宝贵的学习资源——你与阅读全文

posted @ 2026-03-15 10:17 木子吉阅读(55) 评论(0) 推荐(0)

2026年3月11日

不需要标准答案，大模型也能自我进化？清华提出 TTRL，用"投票"替代标注做强化学习

摘要：不需要标准答案，大模型也能自我进化？清华提出 TTRL，用"投票"替代标注做强化学习当测试数据没有标签，模型还能通过强化学习变强吗？TTRL 给出了一个令人惊讶的答案。一个反直觉的发现强化学习（RL）正在成为大语言模型（LLM）推理能力提升的核心引擎。从 DeepSeek-R1 到 OpenA 阅读全文

posted @ 2026-03-11 16:19 木子吉阅读(43) 评论(0) 推荐(0)

2026年3月8日

想的少反而做得好？一文读懂如何训练Deep Research智能体

摘要：想的少反而做得好？一文读懂如何训练Deep Research智能体解读论文：How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1（arXiv: 2602.19526），阅读全文

posted @ 2026-03-08 22:17 木子吉阅读(56) 评论(0) 推荐(0)

2026年2月28日

如何训练你的"潜变量"？Google DeepMind 提出 Unified Latents，用扩散模型同时编码、正则化和生成

摘要：如何训练你的"潜变量"？Google DeepMind 提出 Unified Latents，用扩散模型同时编码、正则化和生成一个框架统一编码器、扩散先验和扩散解码器，ImageNet-512 FID 1.4，Kinetics-600 FVD 1.3，刷新多项纪录。 Key Takeaways / 阅读全文

posted @ 2026-02-28 18:36 木子吉阅读(48) 评论(0) 推荐(0)

智谱AI GLM-5 技术报告全面解读

摘要：智谱AI GLM-5 技术报告全面解读为什么现在要关心这个方向？ 2026年2月，智谱AI联合清华大学发布了GLM-5——一个744B参数的开源基座模型。这不只是又一次"刷榜"，而是一次范式转变的宣言：从Vibe Coding（氛围编程）走向Agentic Engineering（智能体工程）。阅读全文

posted @ 2026-02-28 15:57 木子吉阅读(463) 评论(0) 推荐(1)

当 AI 开始"翻书"：一文读懂检索增强生成（RAG）的前世今生与实战指南

摘要：当 AI 开始"翻书"：一文读懂检索增强生成（RAG）的前世今生与实战指南开篇：AI 很强，但它也会"胡说八道" 你一定用过 ChatGPT、Copilot 或者 Stable Diffusion。它们能写论文、补代码、画插图，看起来无所不能。但如果你问 GPT 一个上周刚发布的 API 接口叫什阅读全文

posted @ 2026-02-28 15:16 木子吉阅读(51) 评论(0) 推荐(0)

2026年2月27日

一文读懂MOE：大模型背后的"专家分工"智慧

摘要：一文读懂MOE：大模型背后的"专家分工"智慧本文基于综述论文：A Comprehensive Survey of Mixture-of-Experts Algorithms, Theory, and Applications(Siyuan Mu and Sen Lin)。如需深入了解，建议阅读原文阅读全文

posted @ 2026-02-27 12:47 木子吉阅读(194) 评论(0) 推荐(0)

混合专家模型 (MoE) 详解

摘要：混合专家模型 (MoE) 详解随着 Mixtral 8x7B (announcement, model card) 的推出，一种称为混合专家模型 (Mixed Expert Models，简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中，我们将深入探阅读全文

posted @ 2026-02-27 12:40 木子吉阅读(340) 评论(1) 推荐(0)

告别多步采样：何凯明"漂移模型"，一步生成图像刷新SOTA

摘要：告别多步采样：何凯明"漂移模型"，一步生成图像刷新SOTA 引言：生成模型为什么需要"多步"？如果你接触过扩散模型（Diffusion Models）或流匹配模型（Flow Matching），一定对"多步采样"不陌生——生成一张图片，模型需要反复迭代几十甚至上百步，从纯噪声逐渐"去噪"到清晰图像阅读全文

posted @ 2026-02-27 10:23 木子吉阅读(63) 评论(0) 推荐(0)

2026年2月9日

从Transformer到基础模型：时空预测技术全景解读

摘要： **时空数据**是同时包含**时间维度**和**空间维度**信息的数据。随着物联网传感器的普及和智能设备的爆发式增长，我们正处于一个时空大数据时代。从交通流量、天气变化到人体运动，时空预测在众多领域扮演着关键角色。阅读全文

posted @ 2026-02-09 12:34 木子吉阅读(152) 评论(0) 推荐(0)

muziji

公告