摘要:
长久以来,人工智能的一个目标是在那些具有挑战性的领域实现超过人类表现的算法。最近,AlphaGo成为了在围棋上第一个打败了世界冠军的程序。在AlphaGo中,使用深度神经网络来进行树搜索,评估位置,和选择下一步动作。这些神经网络使用人类的专家数据进行监督学习,以及通过自我对弈进行强化学习。在这里,我们介绍一个仅仅基于强化学习的算法,除了游戏规则外没有任何的人类数据,指导,或领域知识。AlphaGo... 阅读全文
posted @ 2018-09-22 23:28
bosslv
阅读(525)
评论(0)
推荐(0)

浙公网安备 33010602011771号