人类Dota2国际大赛打败OpenAI,但AI赢回来也只是时间问题
OpenAI曾在2017年战胜Dota2世界顶级玩家Dendi,本月初战胜了由职业选手和解说员组成的半职业战队,这一系列出彩的表现提升了人们对人工智能再次夺冠的期望。8月22日在温哥华举行的TI8上,OpenAI联合创始人兼CTO格雷格·布罗克曼(Greg Brockman)带着全新的OpenAI Five如期而至,却接连两场输给巴西站队和中国战队,据悉,巴西战队目前世界排名第14位,这至少说明一直想挑战人类“最强”的人工智能,目前还不能在Dota2电竞场上打败人类。
机器的短板
正如专注于游戏领域AI研究的迈克·库克在Twitter上所说,“机器人在即时即地的反应上做得很好,但宏观层面决策的表现却很糟糕。”OpenAI计划在当地时间周三、周四、周五连比三场,由于比赛采取三局两胜制,OpenAI在输给中国战队之后,就结束TI8之旅。
两场比赛分别持续了51分钟和45分钟,从数据来看,OpenAI Five在比赛开始的前20-35分钟内确实有很大的胜算。以AI的计算能力来看,OpenAI Five不乏出彩的表现,比如“围剿”孤立的英雄,近距离进行技能释放,血量计算等。在与巴西战队paiN的较量中,AI也拿到比对手更多的“人头”。毕竟,人工智能就是一台机器,可以获取游戏后端给予的精确的数字反馈,比如英雄状态和英雄间距离等信息。但是在战略上,人工智能远不及人类,执着于击打Roshan、莫名其妙的在家、塔下插眼、在没有对手的时候放大收野。
这种精准的计算和不稳定的战略恰好反映了AI是如何学会打Dota的,OpenAI使用强化学习训练AI从头自学,在一遍遍尝试中坚持下来有效的动作。因此也导致了OpenAIFive在面对训练中没有遇到的情况时束手无策,从事OpenAIDota项目的软件工程师苏珊·张表示,“如果AI在比赛中遇见了之前从未有过的情况,很难立即调整。同时,在训练过程中,机器人在判断采取何种行动时,最多会提前14分钟。没有任何一种机制让机器人部署超过14分钟的长期战略。”所以,AI的这一缺陷,在两场比赛中展露无遗。
在比赛开始前,格雷格·布罗克曼曾对TheVerge表示,公司曾进行一场内部员工投票,认为OpenAIFive获胜的可能性不到50%,这是普遍的共识。但是他补充说,真正重要的是AI的进步速度。AI在接近某战队水平时,就与他们打比赛,一、两周之后,AI就能超过他们,这样的事情已经“验证”很多次了。
不可否认的是AI强大的学习能力,即便完败巴西、中国战队,OpenAI的AI选手也远远超越早期的电子竞技机器人。
“OpenAI Five”
在体育和游戏中,人工智能与人类的对抗有着悠久的历史。IBM开发的深蓝计算机在1996年成为了第一个与世界象棋冠军较量并赢得比赛的电脑系统。战胜越来越具有挑战性的人类冠军则慢慢成为衡量人工智能进步的标准。
2016年3月,AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4:1的总比分胜出;之后,AlphaGo以网络围棋手“Master”的身份为与中日韩数十位围棋高手进行对决,以60胜零负收场。此后,DeepMind团队公布全新强化学习算法——AlphaZero,仅仅通过自我对弈的方式就达到超越人类的水平。
去年,谷歌旗下的DeepMind和马斯克创建的非盈利研究实验室OpenAI合作研究一种根据人类反馈进行强化学习的新方法,并发表论文《Deep reinforcement learning from human preferences》(根据人类偏好进行的深度强化学习)。要建立一个安全的AI系统,其中很重要的一步是不再让人类给AI系统写目标函数,因为这都可能导致AI行为偏离轨道或引发危险。新算法只需要人类逐步告诉AI,两种AI推荐的动作中哪一种更好,AI由此推测人类的需求进行学习,比如新算法用来自人类评价员的900次二选一反馈学会了后空翻。OpenAI和DeepMind希望通过新算法来提高人工智能的安全性。
DeepMind凭借Alpha Go不负众望,同样专注在强化学习领域的OpenAI则是放眼于Dota2上,因为在数学计算上,电竞游戏比象棋或者围棋更复杂。这件看似“不正经”的事情,对于人工智能来说却是巨大的挑战,游戏中需要AI团队协同作战、布局长期战略、制定复杂决策。如果赋予AI的这些技能可以通过游戏磨练“精进”,便可以加以运用到现实生活中。这也恰巧符合OpenAI的建立初衷——吸取所有的人类优点,建立安全的通用机器人。