最近这两天AI又是大火了一把,在25日凌晨2点,DeepMind与暴雪合作进行了一场特别的直播,在这一场直播里,DeepMind展示了其旗下团队研发的最新款AIAlphaStar。 是不是感觉这个名字有一些熟悉?没错,DeepMind正是研发了AlphaGo、AlphaGoZero的、隶属于Google的AI公司,DeepMind曾经凭借自己研发的AI打败了当时围棋棋力世界第一的柯洁。 这一次的AlphaStar是DeepMind最新研发的一款会打《星际争霸2》的AI,《星际争霸2》是老牌游戏公司暴雪开发的一款即时战略游戏,其系列最初作《星际争霸》发行于1998年,是一代老玩家的经典记忆。 看到这里你可能会问了,为什么DeepMind这种世界一流的AI公司不大力发展AI在现实世界中的应用,反而投入不小的人力物力去研发这么一款只会打游戏的AI呢? 这是因为即时战略游戏中存在一个名叫战争迷雾的东西,它会使你只能看见你自己视野范围内的东西,整个地图上其他的东西你是看不见的,例如对手在干什么、造了什么东西,如果你没有单位去侦察是看不见的。 这使得对局双方掌握的信息变得不对称,在这样的情况下,AI需要做出更多预测性的决策、对一些突发的情况有着更好的掌控。在这种对局中AI需要主动地探测信息,并根据这些有限的信息还原出当下游戏对局的情况,进而做出时间、空间方面的长远预测,实现对总体游戏局面的掌控。 《星际争霸2》恰好就是市面上这一类即时战略游戏中竞技性非常强、对局中可用策略繁多、难度较高的一款游戏,同时暴雪也愿意向人工智能方面的开发者提供编程接口,以至于目前全球的AI团队基本上都在这款游戏里进行新一阶段的AI研究。 实际上在这一次DeepMind的公开演示之前,全球的一些AI团队实际上已经进行了一些技术比拼或是类似的人机对战,之前的AI多是和星际争霸内置的AI进行对局,这一次DeepMind的演示是全球首次公开的AI和人类职业玩家的对抗。 笔者是看了这一次人机大战的全程直播,DeepMind和职业玩家的对局实际上是放的录像,在直播的结尾才进行了一场现场直播对决。 可能是考虑到AI能力上的局限,Google这一次是限定只用一张地图进行神族vs神族的对战,这样的限制对AI是利好的,因为《星际争霸2》地图的多样和不同种族单位之间的差异对AI而言是海量的信息,这些信息目前的AlphaStar或许并不能很好地处理。 在这样的规则下,最终AI以10:1的成绩战胜职业玩家,其中前十盘是在DeepMind总部进行,AlphaStar全胜。直播是挑选了部分进行录像回顾,所有的录像在直播后都已公开,前五盘是与Liquid战队虫族选手TLO的对局,后五盘是与Liquid战队神族选手MaNa的对局。直播的最后一场是MaNa现场对阵AlphaStar,该场对局为现场直播,MaNa取胜。 其实这一次的人机对战中三个部分的对战DeepMind拿出的AlphaStar并不是相同的,实力上有明显的强弱之分,在直播中Google也有提到对阵两个不同的职业玩家他们拿出的AI训练时间是不同的。虽然10:1的战绩非常辉煌,但是笔者个人感觉这是DeepMind有意为之。 参与前五场对局的TLO是一个职业虫族玩家,神族是他的副族,从直播放出的录像来看TLO的神族水平不是很高,由于AlphaStar本质上是个超强机器,它在对局中的运营做到了一种近似极致的严苛,资源采集的效率、出兵的节奏都很稳定。 由于神族只是TLO的副族,所以即使TLO的操作比AI还要迅猛,但出于自己的不够熟练,TLO但是在运营上就被AlphaStar轻松超越不少。后续的几场对局中我们可以明显看出来这几场TLO落败不是因为AI太过于强力,而是因为TLO的神族有些菜。 现场使用的《星际争霸2》还是比较旧的版本,这应该加重了TLO对游戏的不适应,在现场播放的第二场录像中,TLO多次脸接自爆球导致全军覆没,双方的操作存在非常大的差距。 就TLO和AlphaStar的对局情况来看,这几场对局不能说明AI是处于人类职业玩家之上的。 后五场和MaNa的对局相较而言更有说服力,因为MaNa本身主玩神族,这意味着他在运营和操作上是世界数一数二的顶尖级水平。可能DeepMind方面也是考虑到了MaNa和TLO实力的差距,所以他们在这五场中使用的AlphaStar是经过加强的。 在后续和MaNa的对局中AlphaStar展现出了非常惊人的操作,AI在操纵追猎者这个单位上展现出了一些非人类水平的东西,即使是一些职业玩家的巅峰时期,也难比AlphaStar的这一波操作。 在对局中AlphaStar有时是通过精准的阵型包夹取胜,但在这些对局中AlphaStar更多地是依赖非常极限、边缘的微操来取胜的。在《星际争霸2》这款游戏中,AI靠操作取胜是没有意义的,因为微操决定这款游戏胜负的一个重要元素,AI能够频繁打出非人类操作就能非常轻松地实现对人类玩家的碾压。 在这样的展示中,不论是参与到比赛的职业玩家,还是我们这些观众,实际上更希望看到的是AlphaStar出奇的战略,而不是单纯通过严密的流程化运营、贴近边缘的极限操作来吊打人类玩家。 除此之外,专业人士在对这些对局进行解说的时候也表示,在对局中职业玩家的一些做法也有些不合常规。 笔者个人认为这个10:1的战绩水分不小,这样的战绩可能是出于宣传或商业需求而有一些刻意为之。 最后一场直播对局中,MaNa显然是有意针对了AlphaStar的打法,用空投不朽进行骚扰,同时在家中布防。MaNa不断地骚扰让AlphaStar的大批部队来回奔走,给自己争取时间这反映出了AI在分兵上颇有问题,这个问题在之前的对局中也有所暴露,但之前的对局AI却也打出过一些分兵包夹这样的操作。 可能对于骚扰、对于多线操作,AI还并不是那么擅长。在这一局中,AI的操作明显没有那么精准,而且MaNa采用了非常高压的打法直冲基地,在这种情况下AI的判断出现了失误,最终落败。 实际上目前的AI在这样的即时策略游戏中还是比较难应对过于复杂的突发情况和高压情况,类似的事情也在OpenAI在《Dota2》这款游戏中对阵职业级玩家的时候有出现过,虽然当时OpenAI的水平本身就有一定问题,但是OpenAI的操作是非常精准的,当时的表演赛明显暴露出OpenAI在应对游戏中各种突发状况的时候非常不灵活,面对游戏中巨量的可能时常做出一些错误的判断,最终落败。由于《Dota2》更讲究策略、团队配合、战术,以至于AI的精准操作并没有能够在对局中起到很强的作用。 这个情况实际上和AlphaStar与MaNa最后一局的表现情况类似,当打法脱离流程,展现出更多意想不到的时候,AI的计算就不那么靠谱了。距离完全吊打人类玩家,AI还是需要再进步一些。 当然,这并不意味着DeepMind的AI并没有什么亮点,在直播中没有播放的AlphaStar对阵MaNa的第五局中,AI在这一局主动地脱离了一些非常流程化的操作尝试了一些不一样的打法。 在这一局中AI尝试了封气矿、野VR(VR,游戏内的机械台,用于生产高级单位)等操作,这让我们看到AI还是懂那么一点野路子的,他们也不完全是一个循规蹈矩,按照一个固定的最优解去和玩家进行对局的东西。 笔者个人认为这一次的10:1中AlphaStar更多还是胜在了微操上,就打法来看,而且AI的打法给人的感觉还是比较单一和僵硬,对突发情况的控制不太好,例如在对阵MaNa的很多局中AI都选择大批量地生产追猎者,总体的策略都过于偏向前期,后期能力很弱。 在直播的对局中MaNa就通过骚扰拖延时间通过高级兵种的压制力和高压的打法取胜。这说明AI并不是无懈可击的,它还有很多的弱点,而且要知道,这只是限定了地图的镜像种族对局。 确实,DeepMind凭借强大的算力已经让AlphaStar迭代到了一个很强的水平,但要让所有玩家能够像服AlphaGo的实力那样对AlphaStar的实力心服口服,DeepMind还有不少的事情要做。