训练 Agent 最怕什么?不是模型笨,是环境烂。
训练 Agent 最怕什么?不是模型笨,是环境烂。外卖这类业务场景里,直接在真实环境训练 Agent 基本行不通。原因就两个:第一,你真分不清它是蒙对的还是真会了。Agent 成功完成一单外卖退款,是因为推理正确,还是碰巧参数没报错?这种信号没法教它什么是对的。第二,真实数据又少又贵。靠人工标注喂一 ...
大语言模型自我验证机制与环境鲁棒性前沿技术研究报告
大语言模型自我验证与环境鲁棒性研究问题背景大模型的应用正在从单次问答走向长程执行。当上下文扩展到几千甚至几万个 token 时,模型需要在更长的推理链中保持决策一致性。但链路越长,状态空间越大,轨迹越容易偏离原始目标。一旦外部工具返回延迟、格式错误或残缺的响应,模型就可能走偏,而长上下文中的冗余信息 ...
全球软件产业智能化范式转移与商业价值重构研究报告
全球软件产业智能化范式转移与商业价值重构研究报告在全球人工智能(AI)投资与应用迈入大规模落地的周期中,软件产业正经历自移动互联网诞生以来最深刻的范式转移。统计表明,2025年全球约有50%的风险投资流向AI领域,行业总投资规模突破2020亿美元,同比增长75%。到2026年,全球AI总支出预计将达 ...
基于AJ-Bench智能体自我验证场景案
AI的“自省”艺术:智能体自我验证场景案例集过去,我们评价一个AI好不好,通常是让另一个AI(即“LLM评委”)读读它的回答,看看“像不像”正确答案。但随着AI深入现实任务,这种“看卷子”的模式已经不太够用了。基于 AJ-Bench 研究编写,介绍“智能体判官(Agent-as-a-Judge)”如 ...
一站式本地监控!一款开源的 Token 用量监控分析工具!
codeburn —— 一款开源本地运行的 AI Token 用量监控分析工具,一站式搞定多款 AI 编程助手的开销核算与效率评估,支持 CLI 终端交互界面和 macOS 原生菜单栏桌面应用。 ...
解密Prompt系列70. 从 MLA 到 CSA,聊聊大模型 Attention 的“瘦身”与“闪送”
这一章我们聊聊这两年注意力架构的技术演化路线
- KV Cache 压缩类:MQA → GQA → MLA(每个 token 的 KV 变细)
- 推理效率优化类:Flash Attention、Paged Attention(让 GPU 跑得更满)
- 长文本优化类:NSA → DSA → CSA... ...
Claude Code+CC-Switch+CC-Connect+飞书使用教程
Claude+CC Switch+CC-Connect+飞书使用教程 简介 本文介绍如何使用CC Switch切换Claude终端对接的供应商,让Claude Code可以对接Deepseek、智谱等国内模型。 本文后半段介绍如何用CC-Connect让飞书对接上本地电脑上的Claude Co ...
物业行业 AI 落地避坑指南
物业行业 AI 落地避坑指南:从"技术幻想"回到业务真相有一点体感越来越强:技术在变,问题是新的,但核心挑战一直一样:怎么把新技术塞进老业务,让它能用、能用长、还能跑出结果。这个指南想讲点实际的。物业行业做过 AI 落地的人踩过的坑,大概都能对号入座。一.传统行业做 AI,先认清三件事企业级市场里, ...
AI 驱动的视频内容自动化创作框架ShortGPT
ShortGPT 的核心是一个开源的 Python 框架,它利用大型语言模型(LLMs)和各种 AI 服务来自动化视频创作。通过为内容生成、语音合成、素材获取和视频编辑提供结构化方法,它简化了复杂的视频制作任务。该框架在 YouTube 自动化和 TikTok 创作者计划自动化中尤为流行,使创作者能 ...
AI 驱动下的上下文治理与管理范式革命
研发效能白皮书:AI 驱动下的上下文治理与管理范式革命一.范式转移:从代码核心到上下文核心的演进战略背景分析 在 AI 驱动的"Web Coding"时代,软件研发的底层逻辑正在发生根本性变化。过去二十年,开发者在 SegmentFault 或 Stack Overflow 上找答案,靠人写代码。现 ...
Flow Matching 训练的输入分布问题:从 VAE Latent 统计性质到归一化工程实践——以 VoxFlash-TTS 为例
摘要:本文从 OT-CFM 插值路径的统计性质出发,系统推导 Flow Matching 模型输入分布与输出速度场分布的均值和方差,分析 VAE KL 散度权重对 latent 点云分散程度的影响,并借鉴图像生成领域的 SNR 失配理论,从理论角度论证逐通道归一化对 Flow Matching 训练 ...
为什么 FDE 正在成为商业落地的唯一解药
AI 时代的"无名英雄":为什么 FDE 正在成为商业落地的唯一解药?1. 引言:顶配大厨与听不懂的需求 想象一下,目前的通用大模型(LLM)就像是一个厨艺绝顶、刀工出众,却完全不通人情的顶级大厨。他能在零点几秒内将食材切成一万根细丝,展示出令人惊叹的"技术确定性"。然而,当你作为顾客对他说"我想吃 ...
15天学会AI应用开发(十)把文本嵌入模型换成国产模型
前面两篇文章在演示RAG功能时,做向量化的文本嵌入模型都用国外的all-MiniLM-L6-v2,该模型主要适用英文,对于中文总体也能用,但在细节上处理欠佳。本文就来介绍如何使用国产离线的文本嵌入模型替换国外模型,以及如何体现国产模型的比较优势。 一、all-MiniLM-L6-v2的缺点 虽然al ...
15天学会AI应用开发(九)利用Chroma持久化向量数据
上一篇文章通过all-MiniLM-L6-v2模型结合FAISS实现了简单的RAG检索功能,但FAISS运行于内存中,无法持久化保存向量数据,重启后又得重新对文本做向量化,比较浪费算力资源。本文就来介绍如何使用向量数据库来持久保存向量数据。 一、向量数据库Chroma Chroma是一个本地向量数 ...
四周实现非母语教学APP
极致的极简主义和无干扰设计(Zero-Distortion Design)正是目前少儿启蒙产品最稀缺的特性。现在的App充斥着各种金币、动画和复杂UI,反而分散了孩子的注意力。每关15个短句30个插画,全部都是根据我的提示词AI生成,教材是让ChatGPT蒸馏了Reading Eggs、Raz Ki ...
Agent Mail 产品介绍与 Trae Solo Agent 实测
Agent Mail 产品介绍与 Trae Solo Agent 实测一、产品基础信息Agent Mail(Agently Mail)是 QQ 邮箱团队面向 AI Agent 推出的专属邮箱服务,官网:https://agent.qq.com/,官方帮助文档:https://help.agent.q ...
2026年全网最深入讲解大模型备案【附:评估测试题+备案参考文件】
文章目录 (一)适用主体 (二)语料安全 (三)模型安全 (四)安全措施要求 (五)词库要求 (六)安全评估要求 (七)附录大模型备案材料源文件 2024年3月1日,我国通过了《生成式人工智能服务安全基本要求》(以下简称《AIGC安全要求》),这是目前我国第一部有关AIGC服务安全性方面的技术性指导 ...
RAG ≠ 多跳推理 —— 关于知识、关联与推理目标的框架设想
关于一个区分 RAG 与多跳推理的设想 知识、关联与推理目标的三层框架 引言:一个直觉的起点 RAG(Retrieval-Augmented Generation)和多跳推理(Multi-hop Reasoning)经常被放在一起讨论。很多人都默认一个隐含前提:RAG做得好,多跳推理自然就能做好;或 ...
AI时代团队效能的非线性陷阱与组织重构升级
AI时代团队效能的非线性陷阱与组织重构升级一、效能悖论:人月神话在AI时代的老调重弹Brooks早就说过,给一个延期的项目加人只会让它更延期。十个孕妇不可能一个月生出孩子,这个道理说了快六十年了,但到了AI时代,很多人还是不信。团队大了,产出不一定大。超过某个临界点之后,人越多、内耗越大、产出反而越 ...
TokenPilot:让 LLM Agent 长会话成本降 60%+ 的上下文管理
TokenPilot 的价值在于,它把 Agent 上下文管理从文本压缩推进到了缓存友好型上下文管理。之前谈上下文优化,重点一般是哪些内容保留、哪些内容删除、哪些历史总结;TokenPilot 增加了一个更工程化的视角:内容在上下文里的组织方式,也会影响推理成本。 ...


