非随机延迟反馈的统一分析技术

非随机延迟反馈在组合半赌博机、线性赌博机及MDP中的统一分析

Lukas Zierahn, Dirk van der Hoeven, Tal Lancewicki, Aviv Rosenberg, Nicolò Cesa-Bianchi; 26(104):1−60, 2025.

摘要

提出针对延迟赌博机反馈在线学习中跟随正则化领导者(FTRL)算法的新分析方法。通过分离延迟反馈与赌博机反馈的成本,该分析在四个重要场景中获得新结果:首次推导出带延迟的组合半赌博机的最优(对数因子内)遗憾界限,以及带延迟的对抗性马尔可夫决策过程(已知和未知转移函数)的最优遗憾界限。

此外,利用该分析开发了针对延迟线性赌博机的高效算法,实现近乎最优的遗憾界限。为推导这些结果,证明在正则化器的温和假设下,FTRL在多个回合中保持稳定性。

[abs][pdf][bib][code]

©️ 某机构 2025.
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-09-05 10:56  CodeShare  阅读(8)  评论(0)    收藏  举报