ContextualBandits系列

碎碎念

  Bandits, Contextual Bandits, RL。3个方向,属于不断升级。CB是一步reward的rl,相比于bandits,可以使用特征信息。最新的研究成果应该就是neural bandits了。正好看到一个github上有很不错的bandits算法对比,正好也在做这块,打算学习下。

 

github地址:https://github.com/sauxpa/neural_exploration

neural ucb论文解读:https://zhuanlan.zhihu.com/p/262608477

 

算法系列

读代码 -> 跑代码 -> 写代码

 

总结

 

posted @ 2021-06-03 11:22  Data'Insight  阅读(169)  评论(0)    收藏  举报