「不作弊」的 AI
这是 DeepMind 为《星际争霸 2》所开发 AI 的首次亮相。
AlphaStar 和以往的《星际争霸 2》游戏 AI 有着本质上的区别——而且,这个区别和实力强弱没关系。
和读取 API 接口、直接在程序层面操作的传统游戏 AI 不同,AlphaStar 的操作由一个深度神经网络生成,获取信息和操作游戏的方式类似真人。它先从原生游戏界面上收集信息,在处理完信息后再把一连串指令输出在游戏画面上。
在 DeepMind 公布的 AlphaStar 的第一视角 Replay 里,我们能看到 AI 有逻辑非常接近人类 的「框选」「点击」「切屏」等操作,并不像传统 AI 那样让所有游戏行为在程序层面瞬间完成。
AlphaStar 的行为逻辑也不来自人工编写。它在学习人类的对局录像掌握初步玩法后,就像它的兄弟 AlphaGo 一样,进入了「左右互搏」、自己和自己练习的过程。而且 AlphaStar 的对练对象不止一个人——DeepMind 为它制造了数百个「分身」,直接模拟出了一个虚拟的天梯进行训练。
从今天发布的录像来看,不到一年时间过去,从「虚拟天梯」中爬出的AlphaStar在面对人类职业选手时已经具备了相当高的威胁性。
十比一的惨败
DeepMind 今天公布的两场比赛,都发生在地图汇龙岛(Catalyst LE)上。
由于 AlphaStar 目前只学习了星灵 VS 星灵的打法,人类和 AI 都只能以星灵种族进行内战。并且,AlphaStar 的视距被拉到最远,能够读取整张地图上的信息(不能穿透战争迷雾)。
首先上场的是 Liquid 战队的虫族选手 TLO,目前在 Aligulac 的世界排名中位列 72 名。
第一局开始,TLO 采用了非常传统的双兵营封路开局,侦查到 AlphaStar 并未封路后,TL0 派出使徒骚扰取得了一定战果。但在进入到中局后,微操完全不敌 AlphaStar 的 TLO 被 AI 单矿一波直接莽穿。
第二局的情形就更一边倒,AlphaStar 选择了出自爆球进攻,TLO 显得完全没有应对经验,自己的部队被炸成了漫天烟花。
由于时间原因,现场只演示了这两场的录像,想看其他三场对局需要登陆 DeepMind 网站下载。
AS 和 TLO 的对局算不上精彩,由于 TLO 的主族是虫族,使用星灵时完全没有人类顶级选手的实力,甚至还犯下了业余选手都不会犯的细节错误。
相比之下,AlphaStar 和 MaNa 的对局更有象征意义。
这场比赛发生在两周以后(AlphaStar 期间加练了相当于人类选手玩 400 年左右的局数),
MaNa 的主族是星灵,其单族排名目前为世界第 11,实力在二线职业选手中属于顶尖。
第一局中,AlphaStar 选择了野兵营 Rush,MaNa 侦查到了 AI 的进攻意向,但是在 AI 极度精湛的小规模微操下并未防守住,打出 GG。第二局双方都选择了爆凤凰,MaNa 在小规模接战中被持续压制,最后被 AlphaStar 的兵力优势和无解操作打败。
之后对局的情形也类似,即在运营没有明显落后的情况下,MaNa 被 AlphaStar 用高强度的操作硬吃了个 5:0。
但在第六局,也是现场演示的唯一一局中,为了保护人类选手,DeepMind 使用了 AlphaStar 的弱化版本,AI 只能先切屏再操作,不能全屏操作。
在对抗这个弱化版的 AI 时,MaNa 发现了 AlphaStar 似乎完全分析不来「棱镜偷家」的场面,于是只用一个棱镜和两个不朽就牵制住了 AlphaStar 的全部兵力。
在拖出自己的高科技部队后,MaNa 一波推平了只会爆追猎的 AlphaStar,让这次 AI 和人类的对决以 10:1 收场。值得一提的是,AlphaStar 并没有学会打出「GG」,MaNa 只能把 AI 的建筑一个一个拆光取得胜利,让场面显得有些尴尬。
一力降十会
虽然以大比分取胜,但 AlphaStar 有些胜之不武。
以第四局为例,AlphaStar 选择了纯追猎者部队的打法,MaNa 及时出不朽者(俗称「不朽爹」,对追猎是优势对抗)应对。
在针对 MaNa 主矿的进攻中,可以看到虽然 AlphaStar 的闪追猎(将受损的追猎闪烁到阵形后排、避免损失)操作极为精湛,但因为兵种劣势并未取得战果,甚至让 MaNa 防守出了兵力优势。
此时兵力大优的 MaNa 转守为攻,选择主动出击。但噩梦一般的画面出现了,在地图的中央,AlphaStar 的追猎者持续不断地不同角度出现,牵制住了 MaNa 的大部队。
面对从三个方向的战争迷雾中杀出的追猎,MaNa 完全迷失了进攻重心,不朽者损失惨重,只能回撤,最终因为兵力差距被 AlphaStar 一举拿下。
这次「被翻盘」一部分是因为 MaNa 判断失误,在大优的局面下贸然进攻,给了 AlphaStar 分割包围的可趁之机。但,这完全是建立在 AI 超出常人的操作强度上的。
在这段「三线闪追猎」的神仙表演中,AlphaStar 的瞬时 EPM(每分钟有效操作数)超过了 1000,峰值甚至能达到 1600。
MaNa 在随后的采访中也面露苦笑,「这种情况在同水平的人类对局中不可能出现。」
虽然 DeepMind 对 AlphaStar 的 EPM 均值有所限制(基本和人类水平保持一致),但并没有限制 AlphaStar 的操作峰值。
这让 AlphaStar 在平时的闲散操作中「保存」下来的操作量,在关键战斗中一股脑地爆发了出来。
MaNa 落败的主要原因,就是在大部分的关键战斗中被 AS 远超人类的操作强度碾压。即便 AlphaStar 在策略和运营上有一些亮点,大多也被「神仙操作」的光芒掩盖了。
另外,即便是限制了 AI 的 EPM 峰值,因为 AI 没有情绪波动、不会手滑点错,其操作效率也远高于人类,同等的 EPM 下仍然是人类劣势。
从比赛中我们也能看到,AI 对每个追猎的操作都十分精准,攻击目标的优先级永远保持在「敌方农民>正在折跃的单位>其他单位」上。
这就有种「你以为你在和 AI 玩 RTS,实际上 AI 在跟你打 MOBA」的感觉。
制造纯粹的力量压制,显然不是 DeepMind 创造 AlphaStar 的意义。
AlphaStar 的价值在哪里?
尽管 AlphaStar 的胜利很大一部分来自 「超人」的操作,但如果我们抛弃胜负本身,就能看到更有价值的事情——AlphaStar 有不少操作和运营的思路和当前的人类选手完全不同,就像它的兄弟 AlphaGo 下出人类无法理解的棋路一样。
例如,在用凤凰对抗机械哨兵和不朽者的混合部队时,绝大多数人(包括职业选手)的直觉都是用凤凰「抬」(持续控制)威胁更大的不朽者,但 AlphaStar 的判断是抬哨兵效率更高,战斗的结果也证实了AI的判断。
在经济决策上,AlphaStar 选择在一矿就出到 24 个农民,这也是人类职业选手从未有过的操作,显然来自 AI 的自我学习。有趣的是,赛后的数据统计显示 AlphaStar 的策略有着明显优势。
虽然 AlphaStar 的操作过于强力,但和几年前人工编写的脚本「悍马 2000」相比,这些操作也都是 AlphaStar 在和自己的练习中自行学会的。
AlphaStar 之所以偏爱出追猎者,正可能是因为它通过学习发现,在极高的操作准确率和高 APM 下,追猎的操作空间比起其他兵种更大、回报更高。
虽然目前的 AlphaStar 在决策上还有很多稚嫩的地方,MaNa 也是依靠 AlphaStar 的经验漏洞,才取得了宝贵的一胜。
从今天的对局来看,真正的人类顶级选手面对这个版本的 AlphaStar 显然是有一战之力的。如果对 AI 的操作强度加以限制,人类的赢面会更大。
但 DeepMind 创造 AlphaStar 的目的并不是要赢人类,而是借助《星际争霸 2》来研究「双方信息不透明」情况下的博弈对抗,进而把学习环境的架构和理念还延伸到其他领域。
而 AlphaStar 对《星际争霸 2》的征途,已经跨过了最难的「从 0 到 1 」那关,接下来的事情,是从 1 到 ∞。
假以时日,AlphaStar 或许就能像 AlphaGo 那样,创造出完全超越人类思路的运营策略,重新改写人类对《星际争霸 2》的理解。
2 月 15 日,还将有另外一个 AI 去挑战目前全球排名第 2 的世界冠军 Serral。不过,这场比赛可能意义没那么大——参赛 AI 的行为逻辑基于人工编写的脚本,思考模式并没有 AlphaStar 这么「高级」。
「真正的 AI」和「真正的人类顶级选手」之间的战斗,还没有来临。
2022-02-25
2022-02-25
2022-03-13
2020-11-12
2020-12-10
2020-12-10
2021-09-26
2021-05-07
2021-02-05
2020-11-13
2020-07-17
2020-11-04
2020-04-25
2020-12-10
2019-09-11
2020-04-25
2020-04-23
2020-06-19
2019-09-25
2019-11-06
回复
AI再怎么强,也是由人类创造出来的,但是AI真的不能再***研究了,否则后果不堪设想。
回复
人类:下次在敢赢我,我把你拆了! AI:怕了怕了
回复
人的操作要看,想,传达到手指,手指移动,ai把这些都省去了,正所谓天下武功唯快不破
回复
其实Ai还只是人类的工具
回复
人类和机器人本质上就不一样啊[流泪]
回复
AI在操作的精准度上领先了人类太多,就像LOL职业哥放技能也打不中一个开脚本躲技能的玩家。另外这AI能看全图,你不知道星际玩家都是瞎子吗[呲牙]
回复
以后让电脑自动做游戏,人类就管玩
回复
在机器方面来看只不过是一堆处理的代码,只有玩家才能体会游戏带来了乐趣
回复
最本质的问题是,人类反应需要时间,而机器不需要
回复
我现在连困难的电脑都打不过..现在科技进步的太快了
更多评论(6)