ContextualBandits系列

碎碎念

　　Bandits, Contextual Bandits, RL。3个方向，属于不断升级。CB是一步reward的rl，相比于bandits，可以使用特征信息。最新的研究成果应该就是neural bandits了。正好看到一个github上有很不错的bandits算法对比，正好也在做这块，打算学习下。