最后的人机围棋大战:柯洁曾逼至AIpahGo极限

文/腾讯科技 卜祥 刘亚澜

直到最后一刻,20岁的柯洁都在努力去赢对手人工智能AlphaGo一盘棋。柯洁是中国围棋职业九段棋手,现今围棋等级分排名世界第一

2017年5月25日下午1点37分时,浙江乌镇,柯洁将三颗白子撂在黄棋盘上认输,来不及整理一下吃败仗后的沮丧表情,立刻与对手开始复盘。两天前的同一个场地,他已经输了第一盘,按照赛前规定,此番认输表示整个比赛,三决两胜,他已经输掉了整个比赛。

但是,接下来新闻发布会上,柯洁当着众多记者的面,向AlphaGo研发公司Deepmind负责人哈萨比斯争取最后一盘对抗执白棋权益。按照之前猜先规矩,第一盘柯洁执黑,第二盘执白,第三盘应该执黑。业界知道,柯洁执白棋胜率远高于黑棋。

按照本次围棋峰会日程,26日举行配对赛和中国围棋五人团队与AlphaGo对弈。据现场解说员、柯洁朋友古力透露,柯洁提出想成为这场对抗赛的摆棋“人肉臂”,被主办方拒绝。显然,这位人类围棋“代表”者柯洁,一直在争取点滴机会多了解对手AlphaGo。

26日当天举行的配对赛和团队对弈AlphaGo,柯洁虽然没有作为选手登场,也没有像第一场失利之后去池塘钓鱼、拉弓射箭,而是一直泡在后方研究室里,关注场上比赛变化。据AlphaGo官方团队证实,柯洁当天下午观看中国五人团体对战AlphaGo过程中,首先在一步棋上提出了靠完尖的下法,被其他棋手嘲笑否定。不久之后,AlphaGo使出了一模一样的着法。

某种程度上,柯洁是在为人类棋手而战,也是在为自己而战。2016年3月,AlphaGo在韩国首尔与李世石对战五局中,输掉第四局。李世石成为目前战胜过人工智能AlphaGo的最后一人。如果柯洁不能胜一盘AlphaGo,历史将会像记住战胜过IBM深蓝电脑的国际象棋冠军卡斯帕罗夫、第一个登月的阿姆斯特朗一样记住李世石,而不是柯洁。

两次与现场预判相反的逆转

从最初看不上眼,到赢了韩国棋手李世石之后被震惊,再到称呼AlphaGo为“阿老师”,围棋手们在不断地调整着对于人工智能最新代表者AlphaGo的认知。峰会上,最让中国棋手们渴望和兴奋的是试图找到AlphaGo一些破绽。

中国围棋队总教练俞斌此前表示,AlphaGo的弱点,在去年对李世石第四盘中所表现出来的“无中生有”的失误,当李世石下出第78手妙棋之后,AlphaGo开始失常。他将这种失误称为“开放性计算的误算”。这种误算在AlphaGo对李世石第五局的角上计算也出现过。

人们觉得AlphaGo是电脑,擅长计算,可能不擅长从大局考虑。经过几番对战,棋手们推翻了此前判断,他们发现AlphaGo驾驭大局能力并不比人类弱,很难从中占到便宜。又有人大胆提出,AlphaGo可能擅长布局,不擅长计算;还有人提出AlphaGo下棋,重捞实地,不重形势。像盲人摸象,人类棋手不停地尝试着。

另外,有棋手们推断,人工智能围棋经常走棋时删繁就简,不造劫材,可能不擅长“应劫”,多多打劫可能会让电脑犯糊涂,并举出网上一些赢了AI围棋的例子证明,不断挑起肉搏,在乱战中寻找机会杀死AI围棋大龙方才有获胜机会。

以上这些因暂时没有人类战胜AlphaGo和今年初AlphaGo匿名化身的Master,无从证明。

倒是现场解说员,对于棋盘上胜负预期两次与最终AlphaGo走出的结果完全相反,着实让现场的观众和解说员一起好久难以缓过劲来。

第一次来自柯洁25日与AlphaGo的第二场比赛。开局至前100手,棋手古力九段根据柯洁脸上表情、较少揪头发的动作和棋盘上局势得出柯洁的棋相当乐观,有获胜的希望。“AlphaGo之父”哈萨比斯(Demis Hassabis)在11:32通过社交网络对外称:“根据AlphaGo的评估,柯洁此时此刻下的非常完美。”当时比赛还在进行当中,这条推文截图立刻在现场传播。观众有些兴奋,期待柯洁代表人类给机器一个教训。

这个希望随着柯洁投子认输而泯灭。

第二次是26日上午连笑+AlphaGo一起对战古力+AlphaGo,现场气氛随着解说员引导,认为时间相对充裕的古力一方胜券在握。结果却是古力一方AlphaGo主动投降,古力拒绝,下了十来手之后,古力认识到大势已去,亲自举起投降牌子。

赛后,腾讯科技追随着一名现场解说员问为何出现逆转情况、AlphaGo和古力谁下出恶手等问题,此位解说员思绪一直停留在比赛中,难以回神应答。

AlphaGo带给人类围棋界的震惊仍然在继续,并扩大着影响范围。只是很多人现场见证之后,感受更为深刻——很多人是懵的,包括职业棋手和一些专家。

这或许意味着,在远超人类计算能力的人工智能AlphaGo面前,职业棋手与业余棋手之间的差距,可能没有职业棋手与AlphaGo之间差距大,整个围棋界将因为AlphaGo的存在引起一些固有结构的崩塌。这之后,谁能有与AlphaGo切磋棋艺的机会,谁就有可能更快地成长,走得更远。

更强的AlphaGo

如果乌镇峰会上柯洁胜一局,意义将不同于去年李世石取胜。

5月24日,在新版本AlphaGo首战以1/4子优势战胜柯洁之后,DeepMind创始人兼CEO 哈萨比斯、AlphaGo团队负责人David Silver在人工智能高峰论坛上称,“AlphaGo已经可以模仿人类直觉。在过去一年,我们想打造完美的AlphaGo,弥补它知识方面的空白。因为在与李世石的比赛中,它是有缺陷的。”哈萨比斯说。据介绍,AlphaGo升级后新版本可以让老版本三个子。

哈萨比斯称围棋因为太过复杂,穷举搜索难以解决。对于计算机来说,围棋有两项难题:很难写出评估程序以决定谁赢;搜索空间太过庞大。

围棋不像象棋等游戏靠计算,而是靠直觉。围棋中没有等级概念,所有棋子都一样。围棋是筑防游戏,因此需要盘算未来。为此,AlphaGo团队用两种卷积神经网络去完成:策略网络和估值网络。策略网络的卷积神经网络用于决定下一步落子可能的位置,价值网络用于评估当前棋局获胜的概率。

为了应对围棋巨大复杂性,AlphaGo 采用机器学习技术,结合了监督学习和强化学习的优势。通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。

然后,训练出一个价值网络(value network)对自我对弈进行预测,以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。这两个网络自身都十分强大,而 AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。最后,新版的AlphaGo 产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。

地平线创始人、百度前深度学习研究院负责人余凯告诉腾讯科技,这次AlphaGo来到中国,技术提升的进步体现在两方面,一方面是AlphaGo 2.0算法,更多强调通过自我博弈,加上通过学习人类棋手的历史数据提升棋艺,一般来说,人工智能需要大数据,而AlphaGo这种做法,并不需要那么多大数据,从零开始,提升棋艺。“我觉得这具有革命性意义。”

另一方面,Deepmind母公司自己研发的新型架构处理器TPU的使用,做到了AlphaGo“单机版”,进一步减少了对处理器数量的需求。

曾经,人工智能学界认为传统硬件很难进一步提升AlphaGo棋力。去年李世石与AlphaGo开战之前,创新工场创办者李开复(微博)在知乎上撰文说明,下围棋计算,需要增加硬件。线性地从1202个CPU增加到1920个CPU,AlphaGo的技战指数(ELO)只增加了28,并未跟着跳跃增长。

但是,TPU的出现极大地提高了计算性能,同时能耗更小,体积也更小。余凯认为通过TPU加大的计算能力,硬件能力提升使得搜索进入一个更大的求解空间。“硬件提升也是令业界瞩目的。”

国内人工智能芯片研发公司寒武纪曾预言,采用人工智能芯片,AlphaGo只需要一台个人电脑大小的主机。这次乌镇围棋峰会上,虽然Deepmind公司未能完全达到,却朝这个方面在进步。值得一提的是,寒武纪公司创始人陈天石告诉腾讯科技,早期与一位法国专家Olivier Temam一起研究人工智能芯片,这位法国人后来加入了Deepmind的母公司,成为TPU团队中一员。

未来,更强的人工智能芯片的出现,与人类棋手的水平将越拉越远。

逼至AIpahGo极限的比赛

一方面人类棋手在寻找机会战胜AlphaGo,另一方面,节节胜利的AlphaGo正在被神化。

在峰会现场,腾讯科技发现一个有趣现象。作为AlphaGo的核心人物之一,黄士杰博士充当机械臂摆放棋子,整个比赛过程中通常面无表情,不上厕所、不喝水。不断吃败仗之后,人们开始谈论黄的表情,甚至开始探究黄摆放棋子的手势,用大拇指和用中指是否代表着不同心情。

本次乌镇围棋峰会之前,柯洁究竟研究了多少盘AlphaGo曾走过的棋?无人知晓。人们注意到,柯洁在与AlphaGo对局时,已经可以熟练运用由AlphaGo采用的一些棋招。

最常被人举例的是所谓“点三三”走法。在对手先手占据星位时,自己再从三三路位置打入。搁在AlphaGo之前,下棋者使用此办法,“会被老师打屁股,甚至会被认为不会下棋”,不仅一位棋手说。但是,从去年底和今年初AlphaGo大量应用此招,并取得胜利之后,围棋界对“点三三”做法重新评估。现在普遍持星位和三三位互为弱点,充满辩证意味。

人与机器对弈中,人类开始借鉴学习人工智能。

23日,柯洁第一盘棋输掉四分之一子,属于稳扎稳打下法。25日,柯洁明显换了一种风格,他试图与AlphaGo激烈对抗,制造更多纷争。一度,在左下角的一块棋有劫争,AlphaGo迟迟不能像惯常做法那样化繁就简,“撑在那里”。盘面最复杂时,有七八条大龙在相互绞杀纠缠,盘面充满不确实性。

这是柯洁最兴奋的时刻,后来也被证明是他离胜利最近的时刻。当时,他用手抚了抚心脏。“太紧张的缘故,想让它跳得慢一点”,柯洁在赛后发布回顾当时下棋感觉。

“柯洁在这场比赛中是有很多的机会。”哈萨比斯说:“前100步是目前为止和AlphaGo下得最势均力敌的人。”他称柯洁比赛中一度将AlphaGo逼至了极限。

遗憾的是,“兴奋之后出现了失误”,柯洁事后坦承未能克服人类的情绪弱点。有情感的人类与只知胜负概率的AlphaGo之间究竟不是同一物种。

现在看来,人类或有可能因为AlphaGo的棋路和棋谱,挖掘出围棋更多的、没有被人类探索和理解的地方,利用得当,会使目前围棋整体水平再上一个台阶。重庆人工智能公司云丛科技创始人周曦持此观点。他对腾讯科技分析说,AlphaGo下了很多人类理解不了的棋,打破了人类围棋思维定势,使得人类棋手更多的反思和学习。同样的,人的学习抽象理解能力,也不是AlphaGo能掌握的。

未来是否会开放AlphaGo给所有的围棋爱好者?战胜人类棋力最强的柯洁之后,下一次还会举办此类围棋峰会吗?对于腾讯科技这些问题,AlphaGo方面核心人员之一David Silver避重就轻地给予了回答,“AlphaGo只是作为研究为主,没有进一步计划。”

不过,有一点可以肯定,当人工智能的围棋水平远远胜过人类之后,人类将放弃继续挑战机器的狂想,就像今天人们已经习惯普通电子计算器,谁也不会与它争一争计算加减乘除运算速度。也许,到那时回头看,本次乌镇围棋峰会可能是人机大战历程中最后一个峰会。

关键词: 人机 围棋 大战
图片版权归原作者所有,如有侵权请联系我们,我们立刻删除。
新化月报网报料热线:886 2395@qq.com

相关文章

你可能会喜欢

最近更新

推荐阅读