非随机延迟反馈的统一分析技术

非随机延迟反馈在组合半赌博机、线性赌博机及MDP中的统一分析

Lukas Zierahn, Dirk van der Hoeven, Tal Lancewicki, Aviv Rosenberg, Nicolò Cesa-Bianchi; 26(104):1−60, 2025.

提出针对延迟赌博机反馈在线学习中跟随正则化领导者（FTRL）算法的新分析方法。通过分离延迟反馈与赌博机反馈的成本，该分析在四个重要场景中获得新结果：首次推导出带延迟的组合半赌博机的最优（对数因子内）遗憾界限，以及带延迟的对抗性马尔可夫决策过程（已知和未知转移函数）的最优遗憾界限。

此外，利用该分析开发了针对延迟线性赌博机的高效算法，实现近乎最优的遗憾界限。为推导这些结果，证明在正则化器的温和假设下，FTRL在多个回合中保持稳定性。

[abs][pdf][bib][code]

posted @ 2025-09-05 10:56 CodeShare 阅读(8) 评论(0) 收藏举报

刷新页面返回顶部