AlphaGo——探索人工智能

  2016年3月15日,李世石与AlphaGo战至第五局,最终1:4败下阵来,这也证明着人工智能时代的开启。那么在这种非完全信息下,人工智能是如何动态博弈的呢?人工智能要采用什么样的技术,才能赢得人类高手呢?这一切都要从一位叫哈撒比斯的人说起。

  2016年,牛津大学迎来了一位叫哈撒比斯的演讲者,当时大家只知道他是一个Google旗下前沿人工智能企业DeepMind的创始人,但在场的人可能谁也没有想到,他在两个月后将给世界带来怎样的震撼。演讲中,他所展示的是大家童年的回忆——打砖块儿游戏。而驾驭这个游戏的玩家不是人,而是AI,也就是通过学习算法不断优化自己的程序,也就是具有学习能力的人工智能。在前100局游戏中,人工智能表现出来了一位菜鸡玩家的特征,经常接不到下落的小球,但它在不断学习中,渐渐明晰了游戏的玩法和技巧,到了第300局游戏时,它几乎不会再出现失误,每次都能稳稳地接住小球。虽然已经超越了大部分游戏玩家,但令人更感觉到恐惧的是,在游戏时间来到第500局时,AI通过自己的算法和学习已经能够达到通过墙体反弹来找到更优解的角度以达成更高效率的通关,也就是我们所熟悉的“脚本”。一个人工智能仅仅通过500局游戏便成为了人类望尘莫及的打砖块专家。

  然而这只是打砖块儿游戏,虽然当时有人被这个强大的自我学习的程序震撼到过,但他们也认为人工智能的限度也就只能停留在这些简单的算法上了。但哈撒比斯明显不这么想,他的野心让人工智能伸向了一个在后来改变世界的领域——围棋。

  围棋,被发明于几千年前的古代中国,黑白两字一人一步,361个交叉点,围住就可以吃掉棋子,最终比双方占领棋盘的大小就可以定输赢。看似规则简单,但围棋拥有着深奥的内容,围棋每走一步就有近200种选择,棋手需要尽可能多地考虑每一步所带来的变化和后续所产生的影响。想要通过数据演算围棋的每种情况录入数据库是完全不可行的想法,因为它的变化太过于丰富。作为人类有史以来所发明的最复杂游戏,哈撒比斯在演讲的最后放下豪言,人工智能将打败顶尖职业棋手。

  由于暴力检索和录入数据的办法行不通,AlphaGo开创了采用模拟人类思考学习的方法,由策略网络、快速走子网络和价值网络共同组成卷积神经网络,每步棋用蒙特卡洛搜索树收缩找到到最优解,再加上一个强化学习的RL系统,AlphaGo组装就此完成,这个强大的人工智能真的能击败职业棋手吗?

  AlphaGo展现出来了远超人类的学习速度,在AlphaGo出现伊始,deepmind公司的黄博士给阿尔法狗投入了3000万盘高水平人类棋谱,仅仅通过几天的极速学习,AlphaGo便从小白成长达到了高水平棋手的水准。在此之后,AlphaGo通过分身自我对弈的形式进行学习,每天就可以与自己对弈十万盘,从而更新算法和不断优化无限进步。要知道即使是职业棋手,整个生涯也只有几万盘的对局,而AlphaGo在刹那间便看透了千年万年。在超大量的数据整合下,AlphaGo迅速迭代更新至V13版本。在测试中,V13版本的AlphaGo以5:0完胜职业棋手樊辉,这也是AlphaGo第一次战胜人类职业棋手。很快,一场世纪对决即将到来,deepmind找到了人类传奇棋手——十四冠王李世石。2016年的李世石已达生涯末年,统治力已不再,但他仍是世界顶尖的棋手,世界排名第4(等级分)。然而在短短的一个月中,AlphaGo每天继续着恐怖的自对弈对局学习,当它来到李世石的对面时,已经更新迭代到了V18版本,这场举世瞩目的人机大战,一触即发。

2016年3月9日,韩国首尔,四季酒店

  李世石与AlphaGo的第一局比赛正式开始。李世石也是第一次面对这样的对手,在开局伊始,AlphaGo展现出来了十足的强悍棋风,在开局AlphaGo占据了场上的主动权。这局棋的进程没有太过跌宕起伏,战斗非常简单。许多职业棋手在观战时还一度认为李世石在中盘占据了优势,但李世石每次发动进攻时,都会被AlphaGo轻描淡写地一笔带过,轻松处理,AlphaGo的最优解使它的失误率无限下降,几乎给不到李世石任何机会。随着棋局的推进,AlphaGo稳固优势,没有给李世石留下任何翻盘的机会。

  第二局,在李世石出去抽烟放松的这段时间,AlphaGo经过远超人类大脑的运算能力,在第37手下出了载入围棋史册的开创性的一步——五路肩冲,这一步改变了后AI时代的围棋算法。这步棋是违反了人类的棋理的,粗看不是好棋,但在经过缜密计算后,这步棋起到了桥梁的作用。也正是从这一步棋开始,李世石再无还手之力,在后半局再次被AlphaGo一步步稳固胜局,输掉了比赛。

  第三局,决胜局。李世石从一开局便与AlphaGo展开了决战,如同飞蛾扑火一般,面对李世石的猛烈攻势,AlphaGo高接抵挡,让李世石的每一记重拳都扑了个空。

  AlphaGo在中后盘不断巩固自己的优势,胜负已经明了,AlphaGo毫无疑问拿下比赛,人工智能展现了它压迫性的优势和强大。人展现出来了强于机器的斗志与尊严,却无法抵挡住机器的算法。

  胜负已分,在第四局第77手时,李世石的胜率已经很低了,然而此时,李世石却下了一步绝妙的棋“挖!”。古力在电视机前看到这一步时,将它称为“只可意会的一步棋”——神之一手。AlphaGo好像并没有理会这一手,而是简单地进行单退处理,继续推进着自己的算法。然而在几步过后,强大的人工智能这才后知后觉地发现,它对第78手这个空挖的判断出现了严重的失误,在哈撒比斯的电脑上,AlphaGo的胜率骤减,AlphaGo罕见地出现了算法上的错误,它不再继续统治着棋盘,在全世界的目光之下,犹如一位业余棋手一样,开始了迷惑的送死行为。

  哈撒比斯这时候才发现,AlphaGo出现了算法上的问题,人工智能居然已经无法再找到更优解的办法,而是选择了自我学习的方式探索!价值网络判断错误,搜索算法也彻底崩盘,AlphaGo开始了犹如初学者一般的下法。而导致程序错误的一手,正是李世石的第78手,神之一手——空挖。在AlphaGo的算法中,这手挖只有十万分之七的概率,而李世石,集中了AlphaGo的死穴,一击致命。第180手,AlphaGo投子认输。

  在这场历史性的人机大战中。AlphaGo展现了它强大的算法,在面对对手的每一步棋时,AlphaGo都能经过缜密的机器计算,找出最优解,使失误率降到最低。而面对第四局李世石的一步诡棋,AlphaGo出现了极低概率的算法上的失误,它无法判断并找出最优解,只能选择自我学习的方式探索,导致了第四局的失败。

  经过更加不断的优化和处理,1月4日,Master的身份公众于世,它就是AlphaGo的最新版本。为了不让李世石的神之一手再现,谷歌公司投入了大量资源给到deepmind,AlphaGo经过了9个月的自我对弈学习和技术算法的更新优化,AlphaGo从对阵李世石的V18版本已经进化到了V23版本。面对人类的顶尖棋手,Master往往在开局20手就占据了优势,随后稳步扩大优势,让人类再无翻盘机会,柯洁对阵Master的三局网络对局中用尽了全身解数也无法找到对策。

  Master版本的AlphaGo究竟有多恐怖?我们用一个数值来衡量——ELO等级分,有点类似于Rank排名分。在当时,李世石的ELO等级分有3538,排名现役棋手第12,柯洁作为世界第一有3671分,对阵李世石时的AlphaGo V18版本等级分大约在3800左右,这个分数虽然强于人类,但人类也并非闻风丧胆。

  而Master版本的AlphaGo是多少呢?4800分。AlphaGo Master版本在诞生仅仅8小时后对阵AlphaGo V18版本的战绩是100胜0负,4800分,这是人类远远地达不到的高度,这个境界已经完全超乎了人类的认知范围,职业棋手面对Master不堪一击。

  这就是AlphaGo,这就是人工智能,人工智能远超人类的学习速度、强大的算法和计算能力,对人类高手来说就是降维性的打击。

posted @ 2022-06-19 16:58  zjhsvaujwjd  阅读(359)  评论(0编辑  收藏  举报