一天等于两百年?人工智能在星际争霸2上向人类发出挑战

张康康

    
    今天,一则《Deepmind公布星际争霸2结果:AlphaStar以10:1战胜职业高手》一文,引发热议,但是其实在两年前,AI就与人类选手进行过星际争霸比赛。
    2017年,世界首届人类与星际争霸AI对抗赛上,在接连两位学生选手败在AI手上后,韩国著名星际争霸选手、星际四皇“司令”Stork通过四场连胜将AI打败。他打败的AI包括了Facebook开发的CherryPi和来自澳大利亚、挪威和韩国的AI。
    
    而在两年后的今天凌晨,DeepMind公布了其录制的AI在星际争霸2中与两位职业选手的比赛,AlphaStar以5:0的成绩战胜了2018年WSC奥斯汀站的亚军MaNa。除了此前比赛录像的展示外,AlphaStar还与MaNa现场对战一局,不过这局AlphaStar输给了人类选手。
    DeepMind的研究联合负责人David Silver在赛后表示,“人工智能的历史被打上了许多重大的标杆性胜利的印记。我希望,未来的人们可能会回顾今天,或许会认为这是人工智能系统所能做的又向前迈进了一步。”
    2013年,当时名不见经传的在DeepMind发表了一篇论文,内容是他们自己开发的AI游戏系统。论文中描述的计算网络并不是为了游戏而服务,反而是让一个AI系统自己去玩游戏。神奇的是,DeepMind的游戏系统可以在完全没有接触的前提下,通过对游戏的自我学习,自动的玩一系列初级电视游戏。
    这个系统可以通过屏幕上面的图像和游戏中的分数是否上升下降,从而做出选择性的动作。虽然这个行为对人来来说难度不大,但对于机器学习来说却意义惊人。因为它涉及架设任务、建立人工精神网络、建立深度学习模型和完善学习过程几个关键部分,并且需要大量的图形处理单来辅助。
    星际争霸2这样的游戏其实比棋盘类游戏更难玩。在电子游戏中,人工智能无法通过观察每一块棋子的移动来计算下一步棋,它们必须实时做出反应。星际争霸2的不可预测性远大于围棋,玩家可以在同一时间会有300种基本动作可选择,即使在一个84x84像素的屏幕中,也会产生大约1亿个不同的动作,因此DeepMind要收集大量玩家的数据进行分析。
    目前DeepMind要做的是让AI预测人类玩家下一步会做什么,AI在比赛之前仅仅数天的训练量,相当于职业选手训练200年之长,同时在对游戏单位的操作上,AI可以避免人类选手的微操失误,同时对未知地形进行勘探,在应对突发状况时,AI的会选择最好的处理方式。还有当人类玩家做了这些操作后要如何应对,通过局势判断下一步要干什么。暴雪已经承诺会从星际2的天梯中收集数十万个匿名录像帮助DeepMind训练,这样可以让AI做到序列预测和长期记忆。
    AI的学习远远超过了我们的想象,无数企业也在不断加码人工智能,BAT、旷视科技、商汤科技、极链科技Video++、依图科技这些深耕人工智能领域的企业,也都在不断进行人工智能各方面的深度学习。不得不感叹于AI在电子竞技项目进步的速度,人工智能下一步的目标,或许就是想向更多的专业游戏选手发出挑战。从人工智能首次被提出来,到现在逐渐进入我们的生活,未来的某一天,AI对于人类也将不再是一项触碰不到的技术。