摘要: Q-LEARNING 最后得到的一个图寻路最佳路径; 直接转化为图关于多顶点深度遍历热度传递 V(level+1) = 0.8 * Max(Vi(level)) 这个方法可以在O时间收敛 原方法Q-LEARNING需要大量的POINT随机出一个数据, 对于大矩阵,前期会有大量的0单元,浪费计算 阅读全文
posted @ 2017-05-16 20:08 陈峰 阅读(380) 评论(0) 推荐(0)