论文速读记录 | 2025.11



目录


Adaptive Domain Modeling with Language Models: A Multi-Agent Approach to Task Planning

  • 来源:无端看到。CASE 2025 的 LLM 工作。
  • ieee xplore:https://ieeexplore.ieee.org/document/11164110
  • ieee xplore 论文集:CASE 2025CASE 2024
  • 主要内容:
    • 故事:传统机器人任务规划,依赖人工预定义规则库(如“积木可堆叠”),遇到新需求(如“按颜色堆叠”)需要重新编码,费时且不灵活。
    • 先前方法的 gap:符号规划如 PDDL 的规则需人工编写,无法适应新属性。纯 LLM 方案生成计划易出现幻觉。混合方法也需固定规则库,无法动态扩展。
    • 这篇文章 fill the gap:LLM 的灵活性 + 符号规划的可靠性,实现任务执行中实时扩展规则库(如动态添加“尺寸”“颜色”等属性)。
    • method:有一堆 agent:1. 领域生成器:将任务描述转为初始规则(如定义“堆叠”动作)。2. 初始状态生成器:生成对象初始属性(如“积木 B 是红色的”)。3. 目标生成器:解析目标,若缺属性(如“颜色”)则反向调用工具,要求上游智能体更新规则。4. 符号规划器:用规则库生成结构化计划。5. 自然语言翻译:将计划转成易懂指令(如“移动积木到位置 X”)。6. ReAct 执行器:结合环境反馈调整动作(遇失败则重试或报错)。
    • 实验结果:做了一个叠积木的 benchmark,貌似只跟其他(没有搭载这个 agent 架构的)LLM 比较了,可能还做了一些 ablation。

MCCoder: Streamlining Motion Control with LLM-Assisted Code Generation and Rigorous Verification

  • 来源:无端看到。CASE 2025 的 LLM 工作。
  • ieee xplore:https://ieeexplore.ieee.org/document/11163835
  • 主要内容:
    • 这篇文章关注的事情:工厂自动化中的运动控制代码生成。利用 LLM 自动生成高质量、安全可靠的运动控制代码,以替代目前主要依赖人工编程和调试的现状。
    • 先前方法的问题:1. 传统方法手工编写,复杂性高、调试低效且不安全。2. 现有的 LLM 辅助编程,主要集中在 PLC(可编程逻辑控制器)等标准化语言上,很少关注 Python 或 C++ 等高级语言的运动控制库,并且对于生成代码的安全性、有效性,缺乏严格的验证机制。
    • 这篇文章的 contribution:搭建了可以自动化写这种代码的 agent 结果,并且生成了专用数据集和评估指标。
    • method,包含多个 agent:任务分解模块 (Task Decomposition),混合检索模块 (Hybrid Retrieval),控制代码生成模块 (Control Code Generation),软运动模块 (Soft-Motion),自修正模块 (Self-Correction),数据验证模块 (Data Verification)。流程:用户输入任务 → 任务分解 → 混合检索 → 代码生成 → 软运动系统执行(仿真)→ 如果有错误,则自修正(回到代码生成)→ 如果无错误,则数据验证 → 最终部署或反馈。
    • 实验结果:有真机。比了一个叫做 Advanced RAG 的 agent 架构,以及使用的各种 LLM(deepseek-v3、GPT-4o 等)。定义了一些 metrics,如首次通过率 (FTPR) = 首次运行正确的任务数 / 总任务数,以及一些与 ground truth(?)轨迹的相似性 metric。

Large Language Model Enabled Industrial Document Generation Method Based on Retrieval Enhanced Prompt Learning

  • 来源:无端看到。CASE 2025 的 LLM 工作。
  • ieee xplore:https://ieeexplore.ieee.org/document/11163775
  • 主要内容:
    • 希望做的事情:用大模型自动生成工业文档(如设备维修手册)。
    • 先前方法的问题:人工,耗时长,且难以关联海量其他文档。LLM 直接生成,有大量幻觉,微调也无法保证没有幻觉。
    • motivation:解决 LLM 生成工业文档的幻觉问题,确保文档可追溯、可验证。
    • method:1. 图文转换:用视觉大模型(LVLM)识别设备图片中的文字和结构 → 生成文本描述。2. 知识库构建:用嵌入模型(LEM)将历史文档转为向量数据库 → 支持快速检索相似案例。3. 引导生成:prompt 模板 + LoRA 微调 + RAG 增强。
    • 实验结果:metric 是 1. 两个评估 LLM 生成的文档与 ground truth(?)之间的相似性,即正确性的 metric,2. 一个 Qwen-Score,好像是让 qwen 评价文档连贯性之类的。好像只比了这一套流程与纯 LLM 生成文档的结果,发现这一套流程比纯大模型更好;因为流程很多,所以还做了一些 ablation。

SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks

  • arxiv:https://arxiv.org/abs/2410.16024
  • html:https://arxiv.org/html/2410.16024v3
  • 来源:在知乎看到的,知乎 | 一种解决 SMAC 任务的新方法:让大语言模型写决策树代码
  • GitHub:https://github.com/devindeng94/LLM-SMAC
  • 主要内容:
    • 用 LLM 生成打 smac 的 python 决策树代码,替代传统强化学习训练,高效解决《星际争霸》多智能体协作任务(SMAC),实现高胜率、强迁移性和白盒决策。
    • 故事:我们希望解决 SMAC 中的微操任务,如控制 5 个海军陆战队击败 6 个敌人,然而,传统 RL 方法训练耗时耗算力、策略没有可解释性、学到的策略换地图就失效,基于规则的方法也需人工设计规则,成本高。
    • motivation:让 LLM 写基于规则的代码。1. LLM 能生成决策树代码,白盒可解释。2. 用环境反馈自动改进代码,如胜率低时调整战术。
    • 具体 method,包含三个 agent:1. 规划(Planner):LLM 分析地图生成战术(如“集火攻击”+“风筝走位”)。2. 编码(Coder):LLM 将战术转为 Python 代码(用python-sc2库)。3. 评论家(Critic):代码在星际环境测试,失败时反馈错误原因(如 API 调用错误)。同时,还有 SFT DPO(用成功代码微调 Qwen-7B 小模型)和 GRPO(用环境胜率作为奖励信号,优化代码生成质量,生成更短更精准的代码)。
    • 实验结果:在 20/23 的原地图上,胜率 > 90%;并且还有一定泛化性,如果兵种差不多,好像可以直接泛化到新地图,如 8 单位策略用于 3 单位场景;有 10 个新地图直接泛化成功。

更多内容:

  • 2.3 Code as Action in LLM Agents 好像是 LLM agent 写代码的综述,可参考。
  • Planner-Coder-Critic 架构:planner 根据环境生成 strategy,code 根据 strategy 写出 python 的 policy,critic 给出 policy 的运行错误堆栈或胜率,给出改进建议。
  • planner 给出的 skill 格式,有点费解,好像算是一些抽象的 high-level action… planner 貌似还要给出这些 skill 的调用条件,所以就变成了决策树…
  • 3.3 的 training,似乎跟 3.2 讲的 agent 架构不太一样,似乎是生成了大量脚本,选出少量好的,然后用来 sft + DPO 对比学习。好像 DeepSeek-coder-v2.5-236B 不需要微调也能 work,但 qwen-7B 就需要这种微调才能 work。
  • 图 10 说明,平均胜率与响应体长度呈负相关。附录中的 GRPO 案例研究进一步支持了这一点,表明更长的先前策略分析往往会产生更复杂但相关性较低的实现,最终导致代码质量下降。

CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery

auto-curriculum learning (Jiang et al., 2021b)

来源是 RSD。似乎可以做自动 curriculum learning,或许是有启发性的。

Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL

来源是 RGSD。可能包含一个技能库,也想看。速读一下就行。

Unsupervised Skill Discovery via Recurrent Skill Training

Learning to Discover Skills through Guidance

One After Another: Learning Incremental Skills for a Changing World

Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching

Horizon Generalization in Reinforcement Learning

HIQL: Offline Goal-Conditioned RL with Latent States as Actions

Contrastive Preference Learning: Learning from Human Feedback without RL

Controlled Diversity with Preference: Towards Learning a Diverse Set of Desired Skills

Human-Aligned Skill Discovery Balancing Behaviour Exploration and Alignment

Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2502.08985
  • 来源:同学的最新工作。
  • 主要内容:
    • 这篇文章关注的 setting 是 offline multi-task MARL;特别的,agent 只在(比如说)三个人合作的场景上训练,然后就可以泛化到任意多个人合作的场景。同学讲的故事是,用 transformer 作为一个翻译器,把三个人的合作动作翻译为多个人的,感觉这个故事听起来非常好。

Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

Rethinking Reward Modeling in Preference-based Large Language Model Alignment

  • arxiv:https://arxiv.org/abs/2411.04991
  • OpenReview:https://openreview.net/forum?id=rfdblE10qm
  • 来源:ICLR 2025 oral。
  • 主要内容:
    • 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
    • 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
    • 实验是否过于 toy(?)理论大概说了什么(?)

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

  • 来源:师兄的文章。

Data Center Cooling System Optimization Using Offline Reinforcement Learning

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

  • 来源:师兄偶然提到,系里其他人的文章。

Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning

Thinkless: LLM Learns When to Think

Learning to Reason without External Rewards



posted @ 2025-11-02 12:25  MoonOut  阅读(35)  评论(0)    收藏  举报