机器学习工程师 - Udacity 强化学习 Part Eight
摘要:八、深度Q-学习 1.神经网络作为值函数状态值函数将任何状态 s 映射到实数,表示根据当前策略 π 该状态的重要性。如果我们使用神经网络估算该函数,则输入需要以向量的形式提供进来。我们已经知道如何使用特征转换 x 执行这一步。现在输入可以经过神经网络。如果它旨在输出一个实数,即网络估算的值,那就与利
阅读全文
posted @ 2019-02-28 20:22
posted @ 2019-02-28 20:22
posted @ 2019-02-27 20:59
posted @ 2019-02-27 19:36
posted @ 2019-02-21 20:54
posted @ 2019-02-14 15:55
posted @ 2019-02-13 19:09