数读全球人工智能格局—2018年斯坦福AI报告发布


    上周,2018年度的斯坦福AI报告发布,从学界、企业、政府和公众等不同主体出发,对人工智能当前的进展进行了数据呈现。经过长期的跟踪、整理和分析人工智能相关数据,报告发现,美国目前在人工智能的学术影响力专利产出、和商业活跃质量具有明显优势,中国则在学术论文发表方面相当高产,但就发展质量而言仍有待提升。在人工智能内部,机器学习和概率推理、神经网络、计算机视觉三个子领域备受学界关注,这也影响到了企业创业和人才需求。
    以下,亿欧智库以论文发布、论文引用、学术会议、初创公司等几个模块,对报告的主要内容进行呈现整理:
    论文发布情况
    从发布论文主题来看,AI相关的论文增速(8x)在2010年后已经大幅超过计算机科学领域(6x),从一定程度表明人工智能领域的论文增长不仅仅是由人们对计算机科学兴趣的提高所驱动的。
    从区域来看,欧洲一直是AI论文主要的发布来源地,占到整体的28%。中国(25%)自2006年后开始超越美国(17%),并在2008年实现出版数的高涨,报告推测是《国家中长期科学和技术发展规划纲要(2006-2020)》和其他政府项目为人工智能研究提供资金和一系列激励政策的结果。
    在AI领域的子类目中(类别间不互相排斥),机器学习和概率推理(Machine Learning and Probabilistic Reasoning)占到最高比例,为56%,而神经网络(Neural Networks)是2014年以来增速最快的研究领域,年复合增长率达到37%。计算机视觉也保持了较高的增速。搜索及优化、自然语言处理及知识表示、模糊系统、规划和决策类论文目前还未呈现大的增长。
    ArXiv是收录科学文献预印本的在线数据库(其中预印本是指学者的还未在正式出版物上发表,而出于和同行交流目的自愿发布的科研论文或报告),投稿量每月高达上万篇。鉴于知识的更迭速度和研究主题的竞争性,学者往往会在漫长的期刊/学术会议审核期之前就投稿在ArXiv上。数据显示投稿的AI相关论文整体呈现增长,其中计算机视觉和模式识别占最大比例,体现了学者较高的传播意愿。
    从关注领域来看,中国对AI的研究侧重于工程技术和农业科技,欧美则集中在人文和医药科学。
    从论文发布的主体来看,学术论文仍占绝大部分,其次则来自政府、企业。以中国为例,92%的AI论文来自学术领域。此外,2017年中国政府主体发布的论文是企业的4倍。而美国的企业主体发布的论文不论从数量还是所占比例来讲都高于中国。由此可见,美国在人工智能科研方面的商业化驱动力相对更强。
    论文被引用量
    FWCI(Field-Weighted Citation Impact,领域权重引用影响系数)是指该区域AI学者收到的平均引用次数除以所有AI作者的平均引用次数,能在一定程度反映论文质量。从数据来看美国的FWCI指数达到1.83,尽管欧洲的AI论文发布量最高,但其FWCI指数略高于平均水平。中国的论文质量则在持续稳步的提高中。
    考虑到AI学者的国际流动性,报告也针对做出研究。数据显示,中美欧三个区域的久居型学者(指从未迁移至外国发表论文)的产出率最低,而那些动态迁出迁入的“候鸟型”作者的论文产出和被引用水平更高。其中中国的久居型学者所占比例最高(75%),相比欧美同类型学者更加高产,但论文质量仍有待提升。

    学术会议
    在AI相关的老牌学术会议中,NeurIPS(神经信息处理系统大会)、CVPR(计算机视觉与模式识别会议)、ICML(国际机器学习大会)人数增长较快。此外,学界对深度学习和强化学习的关注,助推ICLR(国际学习表征会议)的新兴小型学术会议规模快速增长。
    AAAI(美国人工智能协会)作为国际性的重要AI学术会议,具备较强的专业度和影响力。按所属国家对会议提交和接受的论文归类,70%均来自于中美两国,两国的论文通过率分别为29%、21%。
    如今,超过50%的人工智能相关机构是非营利组织,包括美国公民自由联盟、牛津大学人类未来研究所和联合国开发计划署。同时,人们更加认识到性别和种族多样性对AI进步的重要性,AI4ALL和WiML等鼓励多元群体参与到AI研究的组织成员数有所增加。
    初创公司、风投和人才需求
    报告通过统计美国初创公司(接受过风险投资支持)每年的累计数量,发现在初创公司数量整体稳步增长的同时,AI领域初创公司则开始呈现指数级增长的趋势,成为创业主旋律。
    每年独立的风险投资数额呈现波动趋势。自2015年以来,AI领域的投资金额迅速高涨,峰值比2014年来的风投扩张期来得更早。
    在此背景下,企业对人工智能相关人才的需求也更加旺盛,机器学习和深度学习尤为明显,其中深度学习的职位需求在2015~2017年间有了35倍的增长。
    企业关注度和应用情况
    针对纽交所上市公司,研究发现,财报电话会议中提及人工智能和机器学习的频次自2015年来大幅增长。而提及两者最多的行业依次是IT、非必需消费品、金融和医疗保健行业,企业则分别是英伟达(AI提及93次)、Alphabet(机器学习提及57次)。在中国,大量的科技和互联网公司也呈现言必提AI的程度。
    麦肯锡在2018年对受访者所在公司在某些业务中嵌入AI功能的情况进行了调研,结果发现不同的人工智能技术在世界各地和不同行业中得到广泛采用,大约一半的公司已经将人工智能嵌入到公司的业务流程中。然而,AI应用还处在早期,大多数公司还未采取措施从人工智能大规模获取价值。

    技术进展程度
    在2015年,ImageNet视觉识别挑战赛中的算法模型识别精度已经超过人类水平,2017年进一步提升至了97%左右。尽管竞赛在2017年已是最后一届,ImageNet2012开放数据集仍在被引用,可以说,ImageNet所构建的规则为研究者提供了标准的研究度量进行比较竞争。
    利用ImageNet数据集培训能够进行高精度图像分类的大型网络在以往需要耗费不少时间。对于拥有足够资源机进行开发的参与者而言,培训网络所需的时间已经从一年半前的1小时降到了大约4分钟,速度提升了16倍,算法创新和硬件进步在其中发挥了重要作用。
    其他如COCO(微软发布的图像数据库,用于对象检测、分割、人体关键点检测、语义分割和字幕生成等)、Parsing(语法分析)、机器翻译、机器问答等竞赛或应用领域在近年来的算法精度也均有不同程度的提高,此处不一一赘述。
    其他
    专利:从区域来看,2014年,人工智能专利中有30%便来自美国,其次则是日、韩两国,各占有16%的比例。
    学校开设课程:AI的火热也发生在高校中,学生报名注册人工智能和机器学习的比例和数量也随之增长。在报告的统计的几所美国顶尖计算机科学高校中,2017年机器学习基础课程的注册人数是2012年水平的5倍,AI课程注册人数是2012年的3.4倍。在中国,清华大学的AI及机器学习课程自2010年到2017年更是实现了16倍的增长。
    Github星数:GitHub(知名开源软件网站)的星数类似于关注数,基本能判定AI编程语言的流行程度。目前TensorFlow(Google)一骑绝尘,其后是Pytorch(Facebook)、mxnet(Amazon)。
    ROS安装:ROS(robot operating system,机器人操作系统)是目前在人工智能领域被广泛使用的机器人软件平台。自2014年, 来自唯一IP地址的ROS安装包下载次数实现了567%的增长。从页面浏览量来看,中国增长最为明显,值得一提的是,百度的自动驾驶平台Apollo就是基于ROS开发的。
    工业机器人安装量:自2012年以来,中国每年的机器人安装量增长了500%,而韩国和欧洲等其他地区分别增长了105%和122%。
    媒体报道情绪:在包含人工智能一次的媒体文章中,情感表达正面的文章所占比例逐步增多,为30%,负面文章则一直保持低水平。
    政府关注度:通过采集美国、加拿大、英国议会的记录文本,报告发现自2016年来政府对人工智能和机器学习的提及次数大幅增加。
    报告最后还列举了历年来重要的里程碑式事件、中国及欧美政府在人工智能领域的主要举措、专家对人工智能目前缺陷所给的建议等内容。