论文速读记录 | 2025.11

Adaptive Domain Modeling with Language Models: A Multi-Agent Approach to Task Planning
MCCoder: Streamlining Motion Control with LLM-Assisted Code Generation and Rigorous Verification
Large Language Model Enabled Industrial Document Generation Method Based on Retrieval Enhanced Prompt Learning
SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks
Controlled Diversity with Preference: Towards Learning a Diverse Set of Desired Skills
Human-Aligned Skill Discovery Balancing Behaviour Exploration and Alignment

Adaptive Domain Modeling with Language Models: A Multi-Agent Approach to Task Planning

来源：无端看到。CASE 2025 的 LLM 工作。
ieee xplore：https://ieeexplore.ieee.org/document/11164110
ieee xplore 论文集：CASE 2025，CASE 2024。
主要内容：
- 故事：传统机器人任务规划，依赖人工预定义规则库（如“积木可堆叠”），遇到新需求（如“按颜色堆叠”）需要重新编码，费时且不灵活。
- 先前方法的 gap：符号规划如 PDDL 的规则需人工编写，无法适应新属性。纯 LLM 方案生成计划易出现幻觉。混合方法也需固定规则库，无法动态扩展。
- 这篇文章 fill the gap：LLM 的灵活性 + 符号规划的可靠性，实现任务执行中实时扩展规则库（如动态添加“尺寸”“颜色”等属性）。
- method：有一堆 agent：1. 领域生成器：将任务描述转为初始规则（如定义“堆叠”动作）。2. 初始状态生成器：生成对象初始属性（如“积木 B 是红色的”）。3. 目标生成器：解析目标，若缺属性（如“颜色”）则反向调用工具，要求上游智能体更新规则。4. 符号规划器：用规则库生成结构化计划。5. 自然语言翻译：将计划转成易懂指令（如“移动积木到位置 X”）。6. ReAct 执行器：结合环境反馈调整动作（遇失败则重试或报错）。
- 实验结果：做了一个叠积木的 benchmark，貌似只跟其他（没有搭载这个 agent 架构的）LLM 比较了，可能还做了一些 ablation。

MCCoder: Streamlining Motion Control with LLM-Assisted Code Generation and Rigorous Verification

来源：无端看到。CASE 2025 的 LLM 工作。
ieee xplore：https://ieeexplore.ieee.org/document/11163835
主要内容：
- 这篇文章关注的事情：工厂自动化中的运动控制代码生成。利用 LLM 自动生成高质量、安全可靠的运动控制代码，以替代目前主要依赖人工编程和调试的现状。
- 先前方法的问题：1. 传统方法手工编写，复杂性高、调试低效且不安全。2. 现有的 LLM 辅助编程，主要集中在 PLC（可编程逻辑控制器）等标准化语言上，很少关注 Python 或 C++ 等高级语言的运动控制库，并且对于生成代码的安全性、有效性，缺乏严格的验证机制。
- 这篇文章的 contribution：搭建了可以自动化写这种代码的 agent 结果，并且生成了专用数据集和评估指标。
- method，包含多个 agent：任务分解模块 (Task Decomposition)，混合检索模块 (Hybrid Retrieval)，控制代码生成模块 (Control Code Generation)，软运动模块 (Soft-Motion)，自修正模块 (Self-Correction)，数据验证模块 (Data Verification）。流程：用户输入任务 → 任务分解 → 混合检索 → 代码生成 → 软运动系统执行（仿真）→ 如果有错误，则自修正（回到代码生成）→ 如果无错误，则数据验证 → 最终部署或反馈。
- 实验结果：有真机。比了一个叫做 Advanced RAG 的 agent 架构，以及使用的各种 LLM（deepseek-v3、GPT-4o 等）。定义了一些 metrics，如首次通过率 (FTPR) = 首次运行正确的任务数 / 总任务数，以及一些与 ground truth（？）轨迹的相似性 metric。

Large Language Model Enabled Industrial Document Generation Method Based on Retrieval Enhanced Prompt Learning

来源：无端看到。CASE 2025 的 LLM 工作。
ieee xplore：https://ieeexplore.ieee.org/document/11163775
主要内容：
- 希望做的事情：用大模型自动生成工业文档（如设备维修手册）。
- 先前方法的问题：人工，耗时长，且难以关联海量其他文档。LLM 直接生成，有大量幻觉，微调也无法保证没有幻觉。
- motivation：解决 LLM 生成工业文档的幻觉问题，确保文档可追溯、可验证。
- method：1. 图文转换：用视觉大模型（LVLM）识别设备图片中的文字和结构 → 生成文本描述。2. 知识库构建：用嵌入模型（LEM）将历史文档转为向量数据库 → 支持快速检索相似案例。3. 引导生成：prompt 模板 + LoRA 微调 + RAG 增强。
- 实验结果：metric 是 1. 两个评估 LLM 生成的文档与 ground truth（？）之间的相似性，即正确性的 metric，2. 一个 Qwen-Score，好像是让 qwen 评价文档连贯性之类的。好像只比了这一套流程与纯 LLM 生成文档的结果，发现这一套流程比纯大模型更好；因为流程很多，所以还做了一些 ablation。

SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks

arxiv：https://arxiv.org/abs/2410.16024
html：https://arxiv.org/html/2410.16024v3
来源：在知乎看到的，知乎 | 一种解决 SMAC 任务的新方法：让大语言模型写决策树代码
GitHub：https://github.com/devindeng94/LLM-SMAC

主要内容：

用 LLM 生成打 smac 的 python 决策树代码，替代传统强化学习训练，高效解决《星际争霸》多智能体协作任务（SMAC），实现高胜率、强迁移性和白盒决策。
故事：我们希望解决 SMAC 中的微操任务，如控制 5 个海军陆战队击败 6 个敌人，然而，传统 RL 方法训练耗时耗算力、策略没有可解释性、学到的策略换地图就失效，基于规则的方法也需人工设计规则，成本高。
motivation：让 LLM 写基于规则的代码。1. LLM 能生成决策树代码，白盒可解释。2. 用环境反馈自动改进代码，如胜率低时调整战术。
具体 method，包含三个 agent：1. 规划（Planner）：LLM 分析地图生成战术（如“集火攻击”+“风筝走位”）。2. 编码（Coder）：LLM 将战术转为 Python 代码（用python-sc2库）。3. 评论家（Critic）：代码在星际环境测试，失败时反馈错误原因（如 API 调用错误）。同时，还有 SFT DPO（用成功代码微调 Qwen-7B 小模型）和 GRPO（用环境胜率作为奖励信号，优化代码生成质量，生成更短更精准的代码）。
实验结果：在 20/23 的原地图上，胜率 > 90%；并且还有一定泛化性，如果兵种差不多，好像可以直接泛化到新地图，如 8 单位策略用于 3 单位场景；有 10 个新地图直接泛化成功。

Controlled Diversity with Preference: Towards Learning a Diverse Set of Desired Skills

arxiv：https://arxiv.org/abs/2303.04592
来源：[mask]，AAMAS 2023。
期刊版本：Human-informed skill discovery: Controlled diversity with preference in reinforcement learning，science direct。

主要内容：

这篇文章提出了 CDP 方法，做的事情是 PbRL + skill discovery，motivation 是通过 human preference 得到一个 r(s) 函数，然后认为 r(s) ≥ 阈值的 state 是好的，限制 skill discovery 只在这些好 state 上探索。
这篇文章基于 EDL 方法（Explore, Discover and Learn），这是一个 skill discovery 方法，遵循 explore-discovery-learn 的三步。具体的，（基于模糊的印象可能有幻觉）explore：先使用纯探索方法，尽可能覆盖更多的 state。discovery：使用一个 VQ-VAE 训了一个 z = encoder(s) 的 encoder，learn：让 \(\pi(\cdot | \cdot, z)\) 访问到的 state 的 z' = encoder(state) 尽可能贴近 z。
在 EQL 基础上的魔改：使用 explore 这一步 replay buffer 里的数据做 PbRL，得到 r(s)，然后只在 r(s) ≥ 阈值的区域做 VQ-VAE。
需要使用 1400 个 PbRL feedback。

Human-Aligned Skill Discovery Balancing Behaviour Exploration and Alignment

arxiv：https://arxiv.org/abs/2501.17431
来源：[mask]，AAMAS 2025。

主要内容：

据合作者说，这篇文章做的是 metra + PbRL，reward 形式为 \((\phi(s') - \phi(s))^T z + \alpha \hat{r}_\psi(s,a)\)，其中 r hat 就是 PbRL 学出来的 reward model。
kimi 说，这篇文章会训一个 \(\pi(a | s,z,\alpha)\) condition on alpha 的神秘 policy，这样只要给 policy 不同的 alpha，它就能做出不同的权衡。
主实验使用了 1280 / 2800 个 PbRL feedback。

posted @ 2025-11-02 12:25 MoonOut 阅读(69) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

论文速读记录 | 2025.11

Adaptive Domain Modeling with Language Models: A Multi-Agent Approach to Task Planning

MCCoder: Streamlining Motion Control with LLM-Assisted Code Generation and Rigorous Verification

Large Language Model Enabled Industrial Document Generation Method Based on Retrieval Enhanced Prompt Learning

SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks

Controlled Diversity with Preference: Towards Learning a Diverse Set of Desired Skills

Human-Aligned Skill Discovery Balancing Behaviour Exploration and Alignment

公告