为何微软、浪潮、英伟达们都盯着巨量AI模型?

大数据在线袁绍龙

    毫无疑问,人工智能乃当下最为吸晴的科技话题,从AlphaGo连胜多位人类围棋顶尖高手,到波士顿机器人炫酷的训练视频,再到特斯拉的人形机器人,甚至创业导师时不时抛出“未来XX年,一半工作将消失”的观点也总能吸引一大堆讨论。
    然而现实世界中,我们经常会被智能客服的各种“智障”表现而无奈、为语音助手突然“发狂”而苦笑、为医疗机器人开出的错误药方而担忧……归根结底,人工智能的发展离达到符合人们预期和使用依然有着较长的距离。
    因此,巨量AI模型正加速浮出水面,被认为是解决各种AI挑战的重要路径。最近几年,无论是国外谷歌、微软,还是国内浪潮、阿里等,都在加码巨量AI模型的研发与投入。短短一段时间里,前有谷歌BERT、OpenAI GT-3等模型发布,后有浪潮发布全球最大中文AI巨量模型1.0、“微软英伟达推最大单体AI语言模型”,将巨量AI模型的竞争推向了新高潮。
    为什么会出现巨量模型
    在AI的世界里,理想很丰满、现实很骨干。
    如果你了解过北京西二旗以及北京周边的大量数据标注工厂,你就会认为“有多少人工,就有多少智能”这句揶揄之语并非虚言。坊间甚至都说,离开了那些数据标注工厂,AI将寸步难行。
    如今,AI发展的确遇到了现实困境:
    往往是模型具有专用特定领域,一个场景对应一个模型,需要耗费大量的人力与资源在构建和训练模型上;
    其次,数据质量参差不齐,数据样本少;
    最后,模型精度差,训练效果差,训练周期长,导致模型在真实场景中应用效果差强人意。
    归根结底,这种项目式的AI应用现状的确是目前阻碍AI大面积落地的最大挑战。有何解决之道?现在业界认为,预训练巨量模型正在着力改变这种局面,是解决AI应用开发定制化和碎片化的重要方法。巨量模型目的是实现一个巨量AI模型在多个场景通用、泛化和规模化复制,减少对数据标注的依赖,大幅降低AI开发与应用的使用成本,真正有希望让AI打开工业化规模应用的局面。
    
    这也推动了人工智能从“大炼模型”逐步迈向了“炼大模型”的阶段,利用先进的算法,整合大规模的数据,汇聚大量算力,训练出巨量人工智能模型。针对源1.0等目前市场上发布的巨量模型,浪潮信息副总裁刘军有个形象的比喻:能进化、更智能的大脑,类似元宇宙中的生命,其复杂综合系统的能力决定了未来在数字世界的智能水平程度。
    斯坦福大学李飞飞教授等人工智能领域知名学者近期也在论文中表示,巨量模型的意义在于突现和均质。突现意味着通过巨大模型的隐含的知识和推纳可带来让人振奋的科学创新灵感出现;均质表示巨量模型可以为诸多应用任务泛化支持提供统一强大的算法支撑。
    可以说,人工智能如何发展出像人类一样的符合逻辑、意识和推理的认知能力,除了加速深度学习技术、开发全新算法范式等研究方向外,大规模数据训练超大参数量的巨量模型一定是未来重要发展方向。
    源1.0是如何炼成的
    提到巨量模型,就不得不提OpenAI。
    去年,OpenAI组织发布了GPT-3模型,该模型拥有1750亿参数量、500G高质量预训练数据集,相比于上一代GPT-2模型,各方面数据提升了百倍有余,一下将模型体量提升到一个新高度。随着OpenAI GPT-3的发布,业界也见识了巨量模型的威力。根据OpenAI年初公布的数据显示,GPT-3推出9个月以来,已有 300 多种不同的应用程序在使用 GPT-3,且全球数以万计的开发人员正在基于该平台开发,每天可产生 45 亿个字。
    自此,巨量模型开启了“刷参数”的模式:阿里达摩院M6模型1万亿参数量、Google Switch Transformer 1.6万亿参数量、微软英伟达Megatron-Turing模型5300亿参数量、浪潮源1.0模型2457亿参数量……
    在动辄千亿、万亿参数量的巨量模型面前,我们还需要了解巨量模型的两种实现模式:一种则是“混合模型”,如Google Switch Transformer、阿里达摩院M6等;另一种则是“单体模型”,如浪潮源1.0、微软联合英伟达发布的Megatron-Turing等。所谓“混合模型”即是由多个相对较小的模型组成,然后通过开关的方式组合起来;而“单体模型”则对算力、算法优化、数据分布、模型参数与结果优化等方面要求更高,其模型精度也更高。
    
    “巨量模型的是一门技术门槛特别高的研究工作,它开展工作的前提是大规模集群。除了将集群用起来,还需要发挥好的性能,需要在模型算法、分布式计算等各个层面协同设计、优化,浪潮在这些方面都有着很深的积累。”浪潮人工智能研究院首席研究员吴韶华博士如是说。
    浪潮人工智能研究院于9月底发布源1.0就是属于典型的“单体模型”。作为全球最大中文语言(NLP)预训练模型,源1.0模型参数量高达2457亿,训练采用的高质量中文数据集高达5000GB,相比GPT-3模型1750亿参数量和570GB训练数据集,源1.0参数规模领先40%,训练数据集规模领先近10倍,在预训练数据量方面甚至比微软英伟达Megatron-Turing高6倍。
    源1.0所聚焦的自动然语言处理(NLP)模型堪称人工智能皇冠上的明珠,相比于机器视觉、语音识别等感知智能,自然语言处理模型属于更具难度的认知智能,聚焦在理解、思考问题,并给出合适答案。在自然语言处理领域,中文的理解又更具难度,相比于英文有空格作为分隔符,中文分词缺乏统一标准,同样一个词汇在不同语境、不同句子中的含义可能会相差甚远,加上各种网络新词汇参差不齐、中英文混合词汇等情况,要打造出一款出色的中文语言模型需要付出更多努力。
    以源1.0为例,浪潮人工智能研究院在预训练数据集上就投入了大量的精力,在海量中文互联网等各方面寻找到公开数据,汇聚成庞大的数据集之后,进行清洗、整理,最终形成5000G规模的高质量中文训练数据集。
    模型规模是越来越大,但实际应用效果不行也是白搭。来看看源1.0的实际表现,在权威中文语言理解测评基准CLUE中,源1.0占据零样本学习(zero-shot)和小样本学习(few-shot)2项榜单榜首,在10项子任务中获得冠军,在成语阅读理解填空项目中,源1.0的表现已超越人类的智能。
    如何理解源1.0所取得的测试成绩?零样本学习(zero-shot),考验的是模型直接应用到特定场景中的能力;小样本学习(few-shot)则是投入少量数据样本,模型的精度即可大幅提升起来。零样本学习和小样本学习能力越强,意味着该模型就越有可能在多个场景中实现通用、泛化和规模化复制,对于降低AI使用门槛是大有裨益,这也是目前巨量模型最为聚焦的竞争点。
    再来看看源1.0挑战“图灵测试”的成绩。图灵测试是判断机器是否具有智能的最经典的方法。在对源1.0进行的“图灵测试”中,将源1.0模型生成的对话、小说续写、新闻、诗歌、对联与由人类创作的同类作品进行混合并由人群进行分辨,测试结果表明,人群能够准确分辨人与“源1.0”作品差别的成功率已低于50%。
    模型开放AI走向普及是必然路径
    随着巨量模型近年来所取得的成功,以及在多任务泛化及小样本学习上的突出表现,让人们看到了探索通用人工智能的希望。众所周知,要想真正进入到一个智能世界,通用人工智能技术的突破性进步与普及速度是关键,巨量模型的快速发展必然对于数字化、智能化有着巨大推动作用。
    但AI真正走向普及,巨量模型开放是一条必然之路。这点从OpenAI GPT-3发布一年以来所带来的广泛影响中可见一斑。
    
    事实上,巨量模型从自身定位来看,其本身扮演着降低AI门槛、提升创新速度的角色;而且通过开放的方式,在更加广泛的应用场景中得到使用,巨量模型可以不断优化与提升,形成闭环;更加关键的是,未来的数字世界广阔应用空间,决定需要更多、更出色的巨量模型来加速构建智能世界。
    以浪潮为例,浪潮源1.0致力于打造最“博学”的中文AI模型,计划面向科研机构和行业客户开放能力接口和开发接口,降低AI开发者和行业用户的使用门槛,以更通用的人工智能大模型赋能科研创新、公共服务智慧化升级和产业AI化应用,让智能更快普及到社会民生经济与科技创新等各个领域。
    未来已来,未来可期!以源1.0为代表的巨量模型正在开启人工智能发展的下一个阶段,巨量模型犹如诸多智慧应用的源头,为智慧应用提供源源不断的智慧源泉。而浪潮源1.0的发布,也标志着中国厂商在通用人工智能的探索上走在了业界的前列,有望为千行百业数字化转型和智能化升级注入源源不断的中国智慧。