论文速读记录 | 2025.11
目录
- Adaptive Domain Modeling with Language Models: A Multi-Agent Approach to Task Planning
- MCCoder: Streamlining Motion Control with LLM-Assisted Code Generation and Rigorous Verification
- Large Language Model Enabled Industrial Document Generation Method Based on Retrieval Enhanced Prompt Learning
- SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks
- Controlled Diversity with Preference: Towards Learning a Diverse Set of Desired Skills
- Human-Aligned Skill Discovery Balancing Behaviour Exploration and Alignment
Adaptive Domain Modeling with Language Models: A Multi-Agent Approach to Task Planning
- 来源:无端看到。CASE 2025 的 LLM 工作。
- ieee xplore:https://ieeexplore.ieee.org/document/11164110
- ieee xplore 论文集:CASE 2025,CASE 2024。
- 主要内容:
- 故事:传统机器人任务规划,依赖人工预定义规则库(如“积木可堆叠”),遇到新需求(如“按颜色堆叠”)需要重新编码,费时且不灵活。
- 先前方法的 gap:符号规划如 PDDL 的规则需人工编写,无法适应新属性。纯 LLM 方案生成计划易出现幻觉。混合方法也需固定规则库,无法动态扩展。
- 这篇文章 fill the gap:LLM 的灵活性 + 符号规划的可靠性,实现任务执行中实时扩展规则库(如动态添加“尺寸”“颜色”等属性)。
- method:有一堆 agent:1. 领域生成器:将任务描述转为初始规则(如定义“堆叠”动作)。2. 初始状态生成器:生成对象初始属性(如“积木 B 是红色的”)。3. 目标生成器:解析目标,若缺属性(如“颜色”)则反向调用工具,要求上游智能体更新规则。4. 符号规划器:用规则库生成结构化计划。5. 自然语言翻译:将计划转成易懂指令(如“移动积木到位置 X”)。6. ReAct 执行器:结合环境反馈调整动作(遇失败则重试或报错)。
- 实验结果:做了一个叠积木的 benchmark,貌似只跟其他(没有搭载这个 agent 架构的)LLM 比较了,可能还做了一些 ablation。
MCCoder: Streamlining Motion Control with LLM-Assisted Code Generation and Rigorous Verification
- 来源:无端看到。CASE 2025 的 LLM 工作。
- ieee xplore:https://ieeexplore.ieee.org/document/11163835
- 主要内容:
- 这篇文章关注的事情:工厂自动化中的运动控制代码生成。利用 LLM 自动生成高质量、安全可靠的运动控制代码,以替代目前主要依赖人工编程和调试的现状。
- 先前方法的问题:1. 传统方法手工编写,复杂性高、调试低效且不安全。2. 现有的 LLM 辅助编程,主要集中在 PLC(可编程逻辑控制器)等标准化语言上,很少关注 Python 或 C++ 等高级语言的运动控制库,并且对于生成代码的安全性、有效性,缺乏严格的验证机制。
- 这篇文章的 contribution:搭建了可以自动化写这种代码的 agent 结果,并且生成了专用数据集和评估指标。
- method,包含多个 agent:任务分解模块 (Task Decomposition),混合检索模块 (Hybrid Retrieval),控制代码生成模块 (Control Code Generation),软运动模块 (Soft-Motion),自修正模块 (Self-Correction),数据验证模块 (Data Verification)。流程:用户输入任务 → 任务分解 → 混合检索 → 代码生成 → 软运动系统执行(仿真)→ 如果有错误,则自修正(回到代码生成)→ 如果无错误,则数据验证 → 最终部署或反馈。
- 实验结果:有真机。比了一个叫做 Advanced RAG 的 agent 架构,以及使用的各种 LLM(deepseek-v3、GPT-4o 等)。定义了一些 metrics,如首次通过率 (FTPR) = 首次运行正确的任务数 / 总任务数,以及一些与 ground truth(?)轨迹的相似性 metric。
Large Language Model Enabled Industrial Document Generation Method Based on Retrieval Enhanced Prompt Learning
- 来源:无端看到。CASE 2025 的 LLM 工作。
- ieee xplore:https://ieeexplore.ieee.org/document/11163775
- 主要内容:
- 希望做的事情:用大模型自动生成工业文档(如设备维修手册)。
- 先前方法的问题:人工,耗时长,且难以关联海量其他文档。LLM 直接生成,有大量幻觉,微调也无法保证没有幻觉。
- motivation:解决 LLM 生成工业文档的幻觉问题,确保文档可追溯、可验证。
- method:1. 图文转换:用视觉大模型(LVLM)识别设备图片中的文字和结构 → 生成文本描述。2. 知识库构建:用嵌入模型(LEM)将历史文档转为向量数据库 → 支持快速检索相似案例。3. 引导生成:prompt 模板 + LoRA 微调 + RAG 增强。
- 实验结果:metric 是 1. 两个评估 LLM 生成的文档与 ground truth(?)之间的相似性,即正确性的 metric,2. 一个 Qwen-Score,好像是让 qwen 评价文档连贯性之类的。好像只比了这一套流程与纯 LLM 生成文档的结果,发现这一套流程比纯大模型更好;因为流程很多,所以还做了一些 ablation。
SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks
- arxiv:https://arxiv.org/abs/2410.16024
- html:https://arxiv.org/html/2410.16024v3
- 来源:在知乎看到的,知乎 | 一种解决 SMAC 任务的新方法:让大语言模型写决策树代码
- GitHub:https://github.com/devindeng94/LLM-SMAC
主要内容:
- 用 LLM 生成打 smac 的 python 决策树代码,替代传统强化学习训练,高效解决《星际争霸》多智能体协作任务(SMAC),实现高胜率、强迁移性和白盒决策。
- 故事:我们希望解决 SMAC 中的微操任务,如控制 5 个海军陆战队击败 6 个敌人,然而,传统 RL 方法训练耗时耗算力、策略没有可解释性、学到的策略换地图就失效,基于规则的方法也需人工设计规则,成本高。
- motivation:让 LLM 写基于规则的代码。1. LLM 能生成决策树代码,白盒可解释。2. 用环境反馈自动改进代码,如胜率低时调整战术。
- 具体 method,包含三个 agent:1. 规划(Planner):LLM 分析地图生成战术(如“集火攻击”+“风筝走位”)。2. 编码(Coder):LLM 将战术转为 Python 代码(用python-sc2库)。3. 评论家(Critic):代码在星际环境测试,失败时反馈错误原因(如 API 调用错误)。同时,还有 SFT DPO(用成功代码微调 Qwen-7B 小模型)和 GRPO(用环境胜率作为奖励信号,优化代码生成质量,生成更短更精准的代码)。
- 实验结果:在 20/23 的原地图上,胜率 > 90%;并且还有一定泛化性,如果兵种差不多,好像可以直接泛化到新地图,如 8 单位策略用于 3 单位场景;有 10 个新地图直接泛化成功。
更多内容:
- 2.3 Code as Action in LLM Agents 好像是 LLM agent 写代码的综述,可参考。
- Planner-Coder-Critic 架构:planner 根据环境生成 strategy,code 根据 strategy 写出 python 的 policy,critic 给出 policy 的运行错误堆栈或胜率,给出改进建议。
- planner 给出的 skill 格式,有点费解,好像算是一些抽象的 high-level action… planner 貌似还要给出这些 skill 的调用条件,所以就变成了决策树…
- 3.3 的 training,似乎跟 3.2 讲的 agent 架构不太一样,似乎是生成了大量脚本,选出少量好的,然后用来 sft + DPO 对比学习。好像 DeepSeek-coder-v2.5-236B 不需要微调也能 work,但 qwen-7B 就需要这种微调才能 work。
- 图 10 说明,平均胜率与响应体长度呈负相关。附录中的 GRPO 案例研究进一步支持了这一点,表明更长的先前策略分析往往会产生更复杂但相关性较低的实现,最终导致代码质量下降。
Controlled Diversity with Preference: Towards Learning a Diverse Set of Desired Skills
- arxiv:https://arxiv.org/abs/2303.04592
- 来源:[mask],AAMAS 2023。
- 期刊版本:Human-informed skill discovery: Controlled diversity with preference in reinforcement learning,science direct。
主要内容:
- 这篇文章提出了 CDP 方法,做的事情是 PbRL + skill discovery,motivation 是通过 human preference 得到一个 r(s) 函数,然后认为 r(s) ≥ 阈值 的 state 是好的,限制 skill discovery 只在这些好 state 上探索。
- 这篇文章基于 EDL 方法(Explore, Discover and Learn),这是一个 skill discovery 方法,遵循 explore-discovery-learn 的三步。具体的,(基于模糊的印象 可能有幻觉)explore:先使用纯探索方法,尽可能覆盖更多的 state。discovery:使用一个 VQ-VAE 训了一个 z = encoder(s) 的 encoder,learn:让 \(\pi(\cdot | \cdot, z)\) 访问到的 state 的 z' = encoder(state) 尽可能贴近 z。
- 在 EQL 基础上的魔改:使用 explore 这一步 replay buffer 里的数据做 PbRL,得到 r(s),然后只在 r(s) ≥ 阈值 的区域做 VQ-VAE。
- 需要使用 1400 个 PbRL feedback。
Human-Aligned Skill Discovery Balancing Behaviour Exploration and Alignment
- arxiv:https://arxiv.org/abs/2501.17431
- 来源:[mask],AAMAS 2025。
主要内容:
- 据合作者说,这篇文章做的是 metra + PbRL,reward 形式为 \((\phi(s') - \phi(s))^T z + \alpha \hat{r}_\psi(s,a)\),其中 r hat 就是 PbRL 学出来的 reward model。
- kimi 说,这篇文章会训一个 \(\pi(a | s,z,\alpha)\) condition on alpha 的神秘 policy,这样只要给 policy 不同的 alpha,它就能做出不同的权衡。
- 主实验使用了 1280 / 2800 个 PbRL feedback。

浙公网安备 33010602011771号