ContextualBandits系列
碎碎念
Bandits, Contextual Bandits, RL。3个方向,属于不断升级。CB是一步reward的rl,相比于bandits,可以使用特征信息。最新的研究成果应该就是neural bandits了。正好看到一个github上有很不错的bandits算法对比,正好也在做这块,打算学习下。
github地址:https://github.com/sauxpa/neural_exploration
neural ucb论文解读:https://zhuanlan.zhihu.com/p/262608477
算法系列
读代码 -> 跑代码 -> 写代码
总结

浙公网安备 33010602011771号