强化学习中,ε-greedy policy的 动作概率 公式细节理解。

比如为什么如下红框内的内容,乍一看加起来概率不等于一?

 

1. epsilonϵ-greedy 策略的概率公式

 

posted @ 2025-04-14 15:00  AlphaGeek  阅读(111)  评论(0)    收藏  举报