一天等于两百年？人工智能在星际争霸2上向人类发出挑战

2024.05.28 张康康

    今天，一则《Deepmind公布星际争霸2结果：AlphaStar以10：1战胜职业高手》一文，引发热议，但是其实在两年前，AI就与人类选手进行过星际争霸比赛。
    2017年，世界首届人类与星际争霸AI对抗赛上，在接连两位学生选手败在AI手上后，韩国著名星际争霸选手、星际四皇“司令”Stork通过四场连胜将AI打败。他打败的AI包括了Facebook开发的CherryPi和来自澳大利亚、挪威和韩国的AI。

    而在两年后的今天凌晨，DeepMind公布了其录制的AI在星际争霸2中与两位职业选手的比赛，AlphaStar以5：0的成绩战胜了2018年WSC奥斯汀站的亚军MaNa。除了此前比赛录像的展示外，AlphaStar还与MaNa现场对战一局，不过这局AlphaStar输给了人类选手。
    DeepMind的研究联合负责人David Silver在赛后表示，“人工智能的历史被打上了许多重大的标杆性胜利的印记。我希望，未来的人们可能会回顾今天，或许会认为这是人工智能系统所能做的又向前迈进了一步。”
    2013年，当时名不见经传的在DeepMind发表了一篇论文，内容是他们自己开发的AI游戏系统。论文中描述的计算网络并不是为了游戏而服务，反而是让一个AI系统自己去玩游戏。神奇的是，DeepMind的游戏系统可以在完全没有接触的前提下，通过对游戏的自我学习，自动的玩一系列初级电视游戏。
    这个系统可以通过屏幕上面的图像和游戏中的分数是否上升下降，从而做出选择性的动作。虽然这个行为对人来来说难度不大，但对于机器学习来说却意义惊人。因为它涉及架设任务、建立人工精神网络、建立深度学习模型和完善学习过程几个关键部分，并且需要大量的图形处理单来辅助。
    星际争霸2这样的游戏其实比棋盘类游戏更难玩。在电子游戏中，人工智能无法通过观察每一块棋子的移动来计算下一步棋，它们必须实时做出反应。星际争霸2的不可预测性远大于围棋，玩家可以在同一时间会有300种基本动作可选择，即使在一个84x84像素的屏幕中，也会产生大约1亿个不同的动作，因此DeepMind要收集大量玩家的数据进行分析。
    目前DeepMind要做的是让AI预测人类玩家下一步会做什么，AI在比赛之前仅仅数天的训练量，相当于职业选手训练200年之长，同时在对游戏单位的操作上，AI可以避免人类选手的微操失误，同时对未知地形进行勘探，在应对突发状况时，AI的会选择最好的处理方式。还有当人类玩家做了这些操作后要如何应对，通过局势判断下一步要干什么。暴雪已经承诺会从星际2的天梯中收集数十万个匿名录像帮助DeepMind训练，这样可以让AI做到序列预测和长期记忆。
    AI的学习远远超过了我们的想象，无数企业也在不断加码人工智能，BAT、旷视科技、商汤科技、极链科技Video＋＋、依图科技这些深耕人工智能领域的企业，也都在不断进行人工智能各方面的深度学习。不得不感叹于AI在电子竞技项目进步的速度，人工智能下一步的目标，或许就是想向更多的专业游戏选手发出挑战。从人工智能首次被提出来，到现在逐渐进入我们的生活，未来的某一天，AI对于人类也将不再是一项触碰不到的技术。