摘要: intro 刚看完《Circle Loss: A Unified Perspective of Pair Similarity Optimization》,随手写了一个overview。 一句话总结这篇paper干了什么事情 "an unified perspective of learning w 阅读全文
posted @ 2020-11-24 19:28 dynmi 阅读(1317) 评论(0) 推荐(0) 编辑
摘要: Intro 这篇blog是我在看过Logan等人的“implementation matters in deep policy gradients: a case study on ppo and trpo“之后的总结。 reward clipping clip the rewards within 阅读全文
posted @ 2020-11-24 18:08 dynmi 阅读(415) 评论(0) 推荐(0) 编辑