最后的人机围棋大战：柯洁曾逼至AIpahGo极限

来源：腾讯科技 2017-05-27 14:16:11

文/腾讯科技卜祥刘亚澜

直到最后一刻，20岁的柯洁都在努力去赢对手人工智能AlphaGo一盘棋。柯洁是中国围棋职业九段棋手，现今围棋等级分排名世界第一。

2017年5月25日下午1点37分时，浙江乌镇，柯洁将三颗白子撂在黄棋盘上认输，来不及整理一下吃败仗后的沮丧表情，立刻与对手开始复盘。两天前的同一个场地，他已经输了第一盘，按照赛前规定，此番认输表示整个比赛，三决两胜，他已经输掉了整个比赛。

但是，接下来新闻发布会上，柯洁当着众多记者的面，向AlphaGo研发公司Deepmind负责人哈萨比斯争取最后一盘对抗执白棋权益。按照之前猜先规矩，第一盘柯洁执黑，第二盘执白，第三盘应该执黑。业界知道，柯洁执白棋胜率远高于黑棋。

按照本次围棋峰会日程，26日举行配对赛和中国围棋五人团队与AlphaGo对弈。据现场解说员、柯洁朋友古力透露，柯洁提出想成为这场对抗赛的摆棋“人肉臂”，被主办方拒绝。显然，这位人类围棋“代表”者柯洁，一直在争取点滴机会多了解对手AlphaGo。

26日当天举行的配对赛和团队对弈AlphaGo，柯洁虽然没有作为选手登场，也没有像第一场失利之后去池塘钓鱼、拉弓射箭，而是一直泡在后方研究室里，关注场上比赛变化。据AlphaGo官方团队证实，柯洁当天下午观看中国五人团体对战AlphaGo过程中，首先在一步棋上提出了靠完尖的下法，被其他棋手嘲笑否定。不久之后，AlphaGo使出了一模一样的着法。

某种程度上，柯洁是在为人类棋手而战，也是在为自己而战。2016年3月，AlphaGo在韩国首尔与李世石对战五局中，输掉第四局。李世石成为目前战胜过人工智能AlphaGo的最后一人。如果柯洁不能胜一盘AlphaGo，历史将会像记住战胜过IBM深蓝电脑的国际象棋冠军卡斯帕罗夫、第一个登月的阿姆斯特朗一样记住李世石，而不是柯洁。

两次与现场预判相反的逆转

从最初看不上眼，到赢了韩国棋手李世石之后被震惊，再到称呼AlphaGo为“阿老师”，围棋手们在不断地调整着对于人工智能最新代表者AlphaGo的认知。峰会上，最让中国棋手们渴望和兴奋的是试图找到AlphaGo一些破绽。

中国围棋队总教练俞斌此前表示，AlphaGo的弱点，在去年对李世石第四盘中所表现出来的“无中生有”的失误，当李世石下出第78手妙棋之后，AlphaGo开始失常。他将这种失误称为“开放性计算的误算”。这种误算在AlphaGo对李世石第五局的角上计算也出现过。

人们觉得AlphaGo是电脑，擅长计算，可能不擅长从大局考虑。经过几番对战，棋手们推翻了此前判断，他们发现AlphaGo驾驭大局能力并不比人类弱，很难从中占到便宜。又有人大胆提出，AlphaGo可能擅长布局，不擅长计算；还有人提出AlphaGo下棋，重捞实地，不重形势。像盲人摸象，人类棋手不停地尝试着。

另外，有棋手们推断，人工智能围棋经常走棋时删繁就简，不造劫材，可能不擅长“应劫”，多多打劫可能会让电脑犯糊涂，并举出网上一些赢了AI围棋的例子证明，不断挑起肉搏，在乱战中寻找机会杀死AI围棋大龙方才有获胜机会。

以上这些因暂时没有人类战胜AlphaGo和今年初AlphaGo匿名化身的Master，无从证明。

倒是现场解说员，对于棋盘上胜负预期两次与最终AlphaGo走出的结果完全相反，着实让现场的观众和解说员一起好久难以缓过劲来。

第一次来自柯洁25日与AlphaGo的第二场比赛。开局至前100手，棋手古力九段根据柯洁脸上表情、较少揪头发的动作和棋盘上局势得出柯洁的棋相当乐观，有获胜的希望。“AlphaGo之父”哈萨比斯（Demis Hassabis）在11：32通过社交网络对外称：“根据AlphaGo的评估，柯洁此时此刻下的非常完美。”当时比赛还在进行当中，这条推文截图立刻在现场传播。观众有些兴奋，期待柯洁代表人类给机器一个教训。

这个希望随着柯洁投子认输而泯灭。

第二次是26日上午连笑+AlphaGo一起对战古力+AlphaGo，现场气氛随着解说员引导，认为时间相对充裕的古力一方胜券在握。结果却是古力一方AlphaGo主动投降，古力拒绝，下了十来手之后，古力认识到大势已去，亲自举起投降牌子。

赛后，腾讯科技追随着一名现场解说员问为何出现逆转情况、AlphaGo和古力谁下出恶手等问题，此位解说员思绪一直停留在比赛中，难以回神应答。

AlphaGo带给人类围棋界的震惊仍然在继续，并扩大着影响范围。只是很多人现场见证之后，感受更为深刻——很多人是懵的，包括职业棋手和一些专家。

这或许意味着，在远超人类计算能力的人工智能AlphaGo面前，职业棋手与业余棋手之间的差距，可能没有职业棋手与AlphaGo之间差距大，整个围棋界将因为AlphaGo的存在引起一些固有结构的崩塌。这之后，谁能有与AlphaGo切磋棋艺的机会，谁就有可能更快地成长，走得更远。

更强的AlphaGo

如果乌镇峰会上柯洁胜一局，意义将不同于去年李世石取胜。

5月24日，在新版本AlphaGo首战以1/4子优势战胜柯洁之后，DeepMind创始人兼CEO 哈萨比斯、AlphaGo团队负责人David Silver在人工智能高峰论坛上称，“AlphaGo已经可以模仿人类直觉。在过去一年，我们想打造完美的AlphaGo，弥补它知识方面的空白。因为在与李世石的比赛中，它是有缺陷的。”哈萨比斯说。据介绍，AlphaGo升级后新版本可以让老版本三个子。

哈萨比斯称围棋因为太过复杂，穷举搜索难以解决。对于计算机来说，围棋有两项难题：很难写出评估程序以决定谁赢；搜索空间太过庞大。

围棋不像象棋等游戏靠计算，而是靠直觉。围棋中没有等级概念，所有棋子都一样。围棋是筑防游戏，因此需要盘算未来。为此，AlphaGo团队用两种卷积神经网络去完成：策略网络和估值网络。策略网络的卷积神经网络用于决定下一步落子可能的位置，价值网络用于评估当前棋局获胜的概率。

为了应对围棋巨大复杂性，AlphaGo 采用机器学习技术，结合了监督学习和强化学习的优势。通过训练形成一个策略网络（policy network），将棋盘上的局势作为输入信息，并对所有可行的落子位置生成一个概率分布。

然后，训练出一个价值网络（value network）对自我对弈进行预测，以 -1（对手的绝对胜利）到1（AlphaGo的绝对胜利）的标准，预测所有可行落子位置的结果。这两个网络自身都十分强大，而 AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索（MCTS）中，实现了它真正的优势。最后，新版的AlphaGo 产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。

地平线创始人、百度前深度学习研究院负责人余凯告诉腾讯科技，这次AlphaGo来到中国，技术提升的进步体现在两方面，一方面是AlphaGo 2.0算法，更多强调通过自我博弈，加上通过学习人类棋手的历史数据提升棋艺，一般来说，人工智能需要大数据，而AlphaGo这种做法，并不需要那么多大数据，从零开始，提升棋艺。“我觉得这具有革命性意义。”

另一方面，Deepmind母公司自己研发的新型架构处理器TPU的使用，做到了AlphaGo“单机版”，进一步减少了对处理器数量的需求。

曾经，人工智能学界认为传统硬件很难进一步提升AlphaGo棋力。去年李世石与AlphaGo开战之前，创新工场创办者李开复(微博)在知乎上撰文说明，下围棋计算，需要增加硬件。线性地从1202个CPU增加到1920个CPU，AlphaGo的技战指数（ELO）只增加了28，并未跟着跳跃增长。

但是，TPU的出现极大地提高了计算性能，同时能耗更小，体积也更小。余凯认为通过TPU加大的计算能力，硬件能力提升使得搜索进入一个更大的求解空间。“硬件提升也是令业界瞩目的。”

国内人工智能芯片研发公司寒武纪曾预言，采用人工智能芯片，AlphaGo只需要一台个人电脑大小的主机。这次乌镇围棋峰会上，虽然Deepmind公司未能完全达到，却朝这个方面在进步。值得一提的是，寒武纪公司创始人陈天石告诉腾讯科技，早期与一位法国专家Olivier Temam一起研究人工智能芯片，这位法国人后来加入了Deepmind的母公司，成为TPU团队中一员。

未来，更强的人工智能芯片的出现，与人类棋手的水平将越拉越远。

逼至AIpahGo极限的比赛

一方面人类棋手在寻找机会战胜AlphaGo，另一方面，节节胜利的AlphaGo正在被神化。

在峰会现场，腾讯科技发现一个有趣现象。作为AlphaGo的核心人物之一，黄士杰博士充当机械臂摆放棋子，整个比赛过程中通常面无表情，不上厕所、不喝水。不断吃败仗之后，人们开始谈论黄的表情，甚至开始探究黄摆放棋子的手势，用大拇指和用中指是否代表着不同心情。

本次乌镇围棋峰会之前，柯洁究竟研究了多少盘AlphaGo曾走过的棋？无人知晓。人们注意到，柯洁在与AlphaGo对局时，已经可以熟练运用由AlphaGo采用的一些棋招。

最常被人举例的是所谓“点三三”走法。在对手先手占据星位时，自己再从三三路位置打入。搁在AlphaGo之前，下棋者使用此办法，“会被老师打屁股，甚至会被认为不会下棋”，不仅一位棋手说。但是，从去年底和今年初AlphaGo大量应用此招，并取得胜利之后，围棋界对“点三三”做法重新评估。现在普遍持星位和三三位互为弱点，充满辩证意味。

人与机器对弈中，人类开始借鉴学习人工智能。

23日，柯洁第一盘棋输掉四分之一子，属于稳扎稳打下法。25日，柯洁明显换了一种风格，他试图与AlphaGo激烈对抗，制造更多纷争。一度，在左下角的一块棋有劫争，AlphaGo迟迟不能像惯常做法那样化繁就简，“撑在那里”。盘面最复杂时，有七八条大龙在相互绞杀纠缠，盘面充满不确实性。

这是柯洁最兴奋的时刻，后来也被证明是他离胜利最近的时刻。当时，他用手抚了抚心脏。“太紧张的缘故，想让它跳得慢一点”，柯洁在赛后发布回顾当时下棋感觉。

“柯洁在这场比赛中是有很多的机会。”哈萨比斯说：“前100步是目前为止和AlphaGo下得最势均力敌的人。”他称柯洁比赛中一度将AlphaGo逼至了极限。

遗憾的是，“兴奋之后出现了失误”，柯洁事后坦承未能克服人类的情绪弱点。有情感的人类与只知胜负概率的AlphaGo之间究竟不是同一物种。

现在看来，人类或有可能因为AlphaGo的棋路和棋谱，挖掘出围棋更多的、没有被人类探索和理解的地方，利用得当，会使目前围棋整体水平再上一个台阶。重庆人工智能公司云丛科技创始人周曦持此观点。他对腾讯科技分析说，AlphaGo下了很多人类理解不了的棋，打破了人类围棋思维定势，使得人类棋手更多的反思和学习。同样的，人的学习抽象理解能力，也不是AlphaGo能掌握的。

未来是否会开放AlphaGo给所有的围棋爱好者？战胜人类棋力最强的柯洁之后，下一次还会举办此类围棋峰会吗？对于腾讯科技这些问题，AlphaGo方面核心人员之一David Silver避重就轻地给予了回答，“AlphaGo只是作为研究为主，没有进一步计划。”

不过，有一点可以肯定，当人工智能的围棋水平远远胜过人类之后，人类将放弃继续挑战机器的狂想，就像今天人们已经习惯普通电子计算器，谁也不会与它争一争计算加减乘除运算速度。也许，到那时回头看，本次乌镇围棋峰会可能是人机大战历程中最后一个峰会。

关键词：人机围棋大战

图片版权归原作者所有，如有侵权请联系我们，我们立刻删除。
新化月报网报料热线：886 2395@qq.com