人类多余吗?AI想超越人类可没那么容易


    今年五月份举行的乌镇围棋峰会上,AlphaGo击败柯洁之后可以说在围棋界里已是“独孤求败”的境界了,几乎无人是其对手。人们在赞赏的同时,也想看到是否会出现一个对手,能够将ALphaGo拉下马。
    事实就是这样,越想着什么越会发生什么。ALphaGo终于遇到了自己的对手,这个对手甚至以摧枯拉朽之势击败了ALphaGo。
        就在上周,据外媒报道,英国DeepMind团队在《自然》杂志上发表了相关论文,介绍了新一代的围棋AI:ALphaGo Zero。使用了强化学习技术的ALphaGo Zero可以通过自我对弈进行训练,棋力大幅度增长,轻轻松松击败了曾经不可一世的ALphaGo。人们再次被震惊了,就连柯洁都发出了“人类多余”的感叹。
     
    
    图片源自微博
    ALphaGo Zero到底是何方神圣?
    可能有的人认为,这没有什么特别的。ALphaGo Zero是ALphaGo的强化版,比ALphaGo经历了更多的数据演练,打败ALphaGo很正常。然而事实并不是这么简单。
    在过去,AlphaGo都是使用专业人类棋手的对局数据来进行训练,可以说是人类棋手的指导下,让它一步步的成长起来。而ALphaGo Zero完全不同,它采用了强化学习技术,从随机对局开始,不依靠任何人类专家的对局数据或者人工监管,而是让其通过自我对弈来提升棋艺。
    据了解,ALphaGo Zero经过3天的训练,就已经可以击败AlphaGo Lee(去年击败韩国顶尖棋手李世石的系统),比分为100比0。经历40天训练后,它总计运行了大约2900万次自我对弈,又击败AlphaGo Master(今年击败世界冠军柯洁的系统),且比分为89比11。要是说ALphaGo对阵人类只是略胜一筹,那对阵ALphaGoZero简直就是被碾压的局面。
    DeepMind团队表示,ALphaGo Zero之所以那么强,原因在于它采取的强化学习技术。他们发现AlphaGo Zero自我对弈仅几十天,就掌握了人类几百年来来研究出来的围棋技术。由于整个对弈过程没有采用人类的数据,因此ALphaGo Zero的棋路独特,不再拘泥于人类现有的围棋理论。
    何谓强化学习技术?
    到底什么是强化学习技术呢?简单地说,强化学习就是让AI从中学习到能够获得最大回报的策略。AlphaGo Zero的强化学习主要包含两个部分,蒙特卡洛树搜索算法与神经网络算法。
        在这两种算法中,神经网络算法可根据当前棋面形势给出落子方案,以及预测当前形势下哪一方的赢面较大;蒙特卡洛树搜索算法则可以看成是一个对于当前落子步法的评价和改进工具,它能够模拟出AlphaGo Zero将棋子落在哪些地方可以获得更高的胜率。
     
    
    AlphaGo Zero的自我强化学习,图片源自Nature
        假如AlphaGo Zero的神经网络算法计算出的落子方案与蒙特卡洛树搜索算法输出的结果越接近,则胜率越大,即回报越高。因此,每落一颗子,AlphaGo Zero都要优化神经网络算法中的参数,使其计算出的落子方案更接近蒙特卡洛树搜索算法的结果,同时尽量减少胜者预测的偏差。
    刚开始,AlphaGo Zero的神经网络完全不懂围棋,只能盲目落子。但经历无数盘自我对弈后,AlphaGo Zero终于从围棋菜鸟成长为了一代棋神。
    AI虽强,但超越人类可没那么容易
    我们可以看到,ALphaGo Zero与它的前任相比,技术上实现了质的飞跃。DeepMind团队也表示,希望通过培养AI自主学习的能力,来解决更多其他领域目前无法解决的棘手问题。但是仍有很多人对于AlphaGo Zero的这种进化表示了深切的担忧。
    美国加州伯克利大学博士@Ent_evo就专门针对ALphaGo Zero发表了一篇博文,在文中评论道:这对人类来说是个很大的打击。当年AlphaGo至少还学习了大量的人类经验,但是AlphaGo Zero根本就不需要人类棋手这么多年的积累,人类经验是好是坏,对AI而言完全无关,这是所有AI末世中最令人恐惧的一个场景。
    这不禁让人想起着名物理学家斯蒂芬·霍金在2017全球移动互联网大会(GMIC)发表的演讲。他表示,人工智能的崛起很有可能终结人类文明。
    但是也有不少业内人士对此表示不用担心。新松机器人总裁曲道奎在接受媒体采访时表示,Zero的分量被夸大了,这次突破只能算人工智能在围棋领域的胜利,但要完成超越人类其他行业的水平却为时尚早。就技术层面而言,Zero解决了围棋问题,但更多的问题比如自然语言理解、图像理解、推理等问题仍然存在。
    在笔者看来,ALphaGo Zero的诞生带来了许多积极意义。它从零开始,证明了“算法优先于数据”这条长期以来一直争论的观点;它能够摆脱对人类的依赖,不需要人类给出样本数据,这为广泛的行业应用提供了更多可能。
    虽然人工智能如此强大,但是“人类多余”的言论还是说的过于严重了。即使ALphaGo Zero是通过自我学习进行成长,但是它依然没有属于自己的思维能力。归根结底,AI也只不过是由人类为了某些需求而用技术加持的一个工具罢了。这个工具虽然强大,但超越人类可没那么容易。