解读AlphaZero:一种人类从未见过的智慧


    在围棋上打败天下无敌手之后,DeepMind旗下的Alpha家族开始深入探究所有棋类,其中就包括国际象棋、日本将军棋。
    2018年12月初,在AlphaZero诞生一周年之际,《自然》杂志以封面文发布了AlphaZero经过同行审议的完整论文,Deepmind创始人兼CEO哈萨比斯亲自执笔了这一论文。
    AlphaGo Zero发布于2017年10月,而起真正受到重视是在去年12月初发布的《科学》杂志上,论文显示,AlphaGo Zero在三天内自学了三种不同的棋类游戏,包括国际象棋、围棋和日本将军棋,而且无需人工干预。这一成果震惊了国际象棋世界,几个小时内,AlphaGo Zero就成为了世界上最好的棋类玩家。
    众所周知,在国际象棋方面,IBM的深蓝在20年前就打败了国际象棋大师,而后续的Stockfish和Komodo这些国际象棋程序也早已独霸国际象棋世界。在AlphaGo Zero发布之后,很多人质疑了其在国际象棋领域的价值。而本次的完整论文,对一些人认为机器算法下国际象棋没有价值的论调提出了几个措辞颇为严厉的批评。这是因为,在过去的12个月里,AlphaZero清楚展示了人类从未见过的一种智慧。
    下面,就让我们通过论文来分析下AlphaZero。
    深蓝、Stockfish和Komodo虽然能赢人类,但不能真正理解棋局
    文章指出,在过去的二十年里,用机器算法下国际象棋已经取得了很大进步。1997年,IBM公司的国际象棋程序“深蓝”(Deep Blue)在一场六局的比赛中击败了当时的人类世界冠军卡斯帕罗夫(Garry Kasparov)。现在看来,这一成就并不神秘。深蓝每秒可以计算2亿个位置。它从不疲倦,从不在计算中出错,也从不会忘记片刻之前的想法。
    无论结果是好是坏,“深蓝”都像一台真正的机器,粗暴而物质化。它的计算能力远超过卡斯帕罗夫,但却无法真正从思维上超越他。在第一局的比赛中,深蓝贪婪地接受了卡斯帕罗夫用车换一名主教的牺牲,却在16步之后输了比赛。现在,诸如Stockfish和Komodo等当前世界上最强的国际象棋程序仍然在以这种方式下棋。它们喜欢吃掉对手的棋子;它们防守像钢铁一样强悍。但是,尽管这些国际象棋程序要比任何人类棋手强大得多,但并没有真正理解棋局本身的意义。
    经过几十年的发展,人类大师关于棋类游戏的经验都被作为复杂的评估工具编进程序中,表明在下棋中该寻求什么样的有利位置以及避免陷入什么样的不利境地。比如,王的安全性,棋子的活动、兵形、中心控制,以及如何平衡利弊。但以往很多国际象棋程序却天生无视这些原则,给人留下的印象是野蛮粗暴的,这些程序速度快得惊人,但却完全缺乏洞察力。
    AlphaGo Zero不仅打败了人类和所有程序,还拥有洞察力
    所有这些都随着机器学习的兴起而改变。AlphaZero通过与自己对弈并根据经验更新神经网络,从而发现了国际象棋的原理,并迅速成为史上最好的棋手。它不仅能够轻而易举地击败所有最强大的人类棋手,还能击败当时的计算机国际象棋世界冠军Stockfish。在与Stockfish进行的100场比赛中,AlphaZero取得28胜72平的好成绩。它没有输掉一场比赛。
    最令人不可思议的是,AlphaZero似乎表达出一种天然的洞察力。它具备浪漫而富有攻击性的风格,以一种直观而优美的方式发挥着电脑所没有的作用。它会玩花招,冒险。在其中几局中,它使Stockfish瘫痪并玩弄它。当AlphaZero在第10局进行进攻时,它把自己的皇后佯退到棋盘的角落里,远离Stockfish的国王。通常来说,这并不是攻击皇后应该被放置的地方。
    然而,这种奇怪的撤退行为充满了恶意,不管Stockfish如何应对,它都注定要失败。经过数十亿次残酷的计算后,AlphaZero几乎是在等待Stockfish意识到,自己的处境是多么无望,就像一头被击败的公牛面对斗牛士一样平静落败。大师们从未见过这样的机器。AlphaZero拥有精湛的技艺,同时也拥有机器的力量。这是人类第一次瞥见一种令人敬畏的新型智能。
    很明显,AlphaZero获胜靠的是更聪明的思维,而不是更快的思维。它每秒只计算6万个位置,而Stockfish会计算6千万个。它更明智,知道该思考什么,该忽略什么。卡斯帕罗夫在《科学》杂志文章附带的一篇评论中写道,AlphaZero通过自主发现国际象棋的原理,开发出一种“反映游戏真相”的玩法,而不是“程序员式的优先级和偏见”。
    
    
    1  2  下一页>