摘要: 我看了你的epsilon初始设置很高,你的loss函数变化应该和这个有关。epsilon初始太高是没用的,因为即使学到了东西他也不会去执行,导致无法用学到的东西去产生更有用的经验。而且中间loss暴涨,我觉得可能是因为agent学到了策略,但是由于epsilon太大,如果前后两次动作一次随机,一次最 阅读全文
posted @ 2020-02-21 00:39 mmn1 阅读(119) 评论(0) 推荐(0)