旷视技术开放日,抛出了三个论断


    “在旷视科技的技术开放日(MegTech)上,这家人工智能企业就业界最关注的大模型、算法量产落地和算法定义硬件的最新进展进行了展示与回应。”
    技术开放日,是每一家科技公司展现技术价值、回应业界前沿探知的重要时刻。
    7月15日,旷视科技的技术开放日(MegTech)如期而至。一群相信技术能改变世界的人聚到一起,将其在AIoT领域的思考和实践和盘托出。
    去年旷视科技十周年举办的首届技术开放日,得到的热情反馈,让旷视决定将其固定下来。“我们希望每年都能举办一届MegTech,而且越办越好,让它能够真正成为每位旷视人和旷视朋友的技术节日。”旷视科技联合创始人、CEO印奇说。
    
    旷视联合创始人、CEO印奇
    今年技术开放日上展示了20个人工智能的DEMO,其中包括了VR的裸手交互、自然语言直接生成3D人物、瞬时相机等热点科技。不仅如此,对当下人工智能大模型、落地中的一些关键问题,旷视科技的人士也给出了他们的思考和实践。
    如今,旷视的技术核心能力都在围绕AI和IoT构建,AI层面包含了两个核心要素:基础算法科研和规模算法量产,IoT的核心要素则是算法定义硬件,而不仅仅是让硬件设备灌入AI算法能力。
    ‘2+1’的AIoT核心技术科研体系是支撑旷视未来不断走向新的AIoT商业成功的最重要的基石。”印奇说。
    01
    大模型的“悖论”
    过去这些年,热闹的AI领域一直面临着这样一个窘境:听起来很美好,但实际落地很难。
    影响落地的一个关键是算法模型的训练。以前是家家户户都在针对不同的业务场景训练AI模型,但因为场景的多样性、复杂性,导致很多人工智能模型要么不经济,要么太单一、泛化性差。
    预训练大模型应运而生。它相当于先自动学习大量语言文字和图像数据,形成先验知识。后续的开发者都可以站在巨人的肩膀上,不需要针对每一个场景都建立一套模型。
    “大模型的泛化能力强、模型效果更优等特征,助力其成为AI开发新范式,也是现阶段AI市场发展的必然趋势。”IDC中国助理研究总监卢言霞说。
    
    旷视2022年技术开放日DEMO:VR裸手交互
    预训练大模型也降低了AI的使用门槛。它可以在不使用大量标记的训练数据,仅仅只给出任务描述,并给出几个从输入到输出示例,便能自动执行任务。
    “大模型是提高AI系统性能的最重要的捷径之一。”旷视研究院基础科研负责人张祥雨说,面对复杂的应用场景和多种任务,提高模型性能的最直接途径,就是提高模型本身的表达能力。
    而谷歌点燃了大模型的第一把火,随后人工智能研究组织OpenAI将大模型的参数规模推到了1750亿的高度。而到了2021年,大模型的“军备竞赛”演绎得最为激烈。
    当年1 月,谷歌推出的Switch Transformer模型参数量已经高达1.6 万亿,打破了Open AI保持的纪录。
    国内的巨头也投入到大模型的竞赛中。2021年4月,华为云的超大规模预训练语言模型的参数规模达1000亿;10月,浪潮发布约2500亿的超大规模预训练模型“源1.0”。12月,百度推出的ERNIE 3.0 Titan模型,参数规模达2600亿。而阿里达摩院的M6模型参数达到10万亿,成为全球最大的 AI 预训练模型。
    从百亿到千亿,甚至到十万亿规模。这很容易给人一种错觉:参数越大,大模型的效果就越好。
    但事实并非如此。“我们发现随着模型的参数量和数据量的增多,我们的收益在逐渐地变少。”张祥雨说。
    片面地追求大参数量,不一定能够达到更强大的模型,反而会带来更大的计算开销。像OpenAI的GPT-3大模型,耗资超过1200万美元,非一般企业所能承受。
    在技术开放日上,旷视对外表示,他们认为的“大”有三个方面:大模型、大算法和大应用。不仅模型要大,更关键的是如何与算法整合,如何在应用中提高性能。
    比如旷视在做大模型上找到一种新方法,传统增大模型的方法主要靠增加深度、宽度,或者增加输入分辨率。旷视提出了一种基于可逆、多column神经网络范式,通过增加可逆column的数量,来扩大化神经网络的参数和计算量。它带来的额外显存消耗非常小,有利于模型的训练和优化。
    
    旷视2022年技术开放日DEMO:自然语言生成3D人物
    “‘大’和’统一’是当今视觉AI基础研究的新趋势。”张祥雨判断。除了大,旷视还提到一个基础研究的关键词“统一”。
    “这两年我们发现这些算法在底层正在走向统一。”张祥雨说,包括基础模型架构的统一,算法的统一和认知的统一。比如在自动驾驶感知领域,旷视构造了一个新的网络PETR。它的特点就是几乎没有人工设计的成分,而是完全基于相同的架构处理多视角、多时刻、多任务,以及多模态的输入。
    底层统一的好处在于,如果各种数据和任务能用统一的算法和模型,就可以构建简单、强大且通用的视觉AI系统。比如,一旦模型统一,AI加速器的设计就会非常简单,一个模型可以适用于各种设备和各种任务。
    如今,在“大”和“统一”的指引下,旷视在通用图像大模型、视频理解大模型、计算摄影大模型和自动驾驶感知大模型四个方向上,已经有了不小进展。
    02
    算法量产的难言之隐
    对于AI而言,算法模型还是万里长征的第一步,如何结合具体场景实现量产落地才是最终目标。
    早期的算法比较简单,单点突破。但实际的应用场景却非常复杂,单点的算法无法解决实际需求,往往需要把几个算法串在一起,才能完成一个具体需求的落地。
    比如在工业园区里的安全生产监测,除了防范火灾,还有人员安全、着装规范、员工操作规范等一系列长尾且碎片化的需求,光让算法识别出是否有火焰,显然是不够的。需要有一个强大的算法生产能力和体系。
    这就导致了现在的算法量产越来越复杂。而通常,一个完整的算法生产过程,包含了需求分析、数据处理、模型训练、上线部署,到最后的应用落地。这是一个相当复杂且繁琐的事情。
    这个过程存在了三个难点:
    一是数据生产的复杂性。
    算法是数据喂出来的,数据的质量决定了算法的效果。现实场景的复杂性是一个非常大的挑战。比如检测火焰,火焰的特征非常鲜明,听起来并不难。但现实中很容易把一些高光的物体标注为火焰,例如车尾灯的投影、远处的太阳。而且小火苗和山火也是完全不同的形态,也容易引起歧义。另外,还要剔除大量重复的数据以及破损的图片。这些都是要克服的干扰因素。
    二是算法模型的不确定性。
    关于算法的模型和文献浩如烟海,选哪个最合适,对于从业者而言是一个非常大的挑战。到底选择何种模型,如何与硬件平台高效匹配,而且在算法落地时,也大概率会遇到漏检、误检的情况。这种技术科研和工程落地之间的巨大鸿沟,是算法领域需要弥合的地方。
    三是硬件多样性带来的高成本。
    算法需要依赖硬件的算力来实现,AI火热这几年,各种AI板卡非常多,但不同芯片平台往往都有不同的体系结构,导致同样一个功能,还需要先去深入了解芯片平台的结构,才能写出高效的代码,增加了AI生产人员的部署成本。
    看起来,每一个问题都很棘手。
    但旷视在技术开放日上对外表达了他们解决算法生产难题的根本:标准化。AI算法只有标准化才能实现自动化,才能普惠易用。这里包括数据生产的标准化、算法模型的标准化和整个推理框架的标准化。
    标准化听起来非常简单,但每一步都要考虑到位,一个细小的差别,最终都可能给最终结果带来偏差。就像开车一样,有些国家靠左,有些国家靠右,有些国家限速,有些国家不限速,红绿灯的设置和表达又有不同。如果规则都统一,底层架构也统一,这些困扰就能迎刃而解。
    为此,旷视搭建了统一的算法生产平台AIS(AI Service)。它基于旷视的Brain++体系,提供了从数据清洗、智能标注、数据管理、数据质检、算法自动生产、模型多维能力评测、pipeline部署等全流程能力。
    
    旷视2022年技术开放日DEMO:AIS算法生产平台
    “标准化是我们在算法生产流程中的核心优势,这也是算法生产平台AIS为大家提供的能力。”旷视研究院算法量产负责人周而进说。目前,AIS平台已经能够支持100多种业务模型训练,最快2小时即可完成,而且模型产出精度指标远高于业界平均水平。经验证,算法研发人员使用Brain++和AIS平台,可以实现智能标注平均加速30倍,自动学习训练加速4至20倍。
    其实,旷视在2020年发布Brain++时,就将其中最核心组件深度学习框架天元(MegEngine)开源,让更多企业与开发者实现更简单的开发。
    “我们希望去降低算法生产的门槛,从而鼓励更多的行业技术人员参与到算法生产的过程中,打通各行各业的Know-how,一起去建设一个开放的算法生产生态。”周而进说。
    03
    算法如何定义硬件
    硬件在AI落地上扮演着非常重要的角色。
    “在每个AI真正能够规模化落地的场景里面,我们需要找到一个特别的硬件载体,一个非常好的IoT设备。在这样的载体当中,才可以真正让AI发挥巨大作用。”印奇说。
    也正是基于此判断,旷视在硬件道路上的探索比较坚持。作为AI算法起家的公司,旷视没有硬件工程的天然基因。其实,不仅是旷视科技,像百度这些主打AI的公司,都在强调软硬一体的战略,加强对硬件的重视。行业普遍意识到,AI算法不是空中楼阁,需要生长在硬件设备上。
    所以,我们也看到,像海康威视、大华这些传统的硬件厂商已提出AIoT的战略。对于这些企业而言,他们有着足够大的硬件出货量,给AI提供了天然的应用场景。
    但是,以前都是先有硬件,然后将AI算法的能力导入。这一点有点类似于早年的电动车,基本是燃油车改装,把油箱和发动机换成了电池和电机,无论是驾驶体验还是整体性能,与现在的电动车相差甚远。
    现在,AI算法反过来在影响硬件的形态和生态。
    “算法对传感器到底需要提供什么样的信息和输入,提出了要求,甚至本质性地改造了传感器的形态和样式。”旷视研究院计算摄影负责人范浩强说,旷视在今年提出了“算法定义硬件”的理念,AI传感器是这个理念的核心单元。
    比如,以前要拍出一张高清照片,不仅需要专业设备,还得选个好天气。现在智能手机的发展让夜间拍照也变得非常清晰自然。而背后其实就有AI算法的功劳,也就是说每一次按下快门,其实都是经过了大量的运算。
    
    旷视2022年技术开放日DEMO:探囊取物
    但要实现AI的能力,需要根据算法对镜头的防抖、对焦以及光线传感等组件进行定制,才能实现影像能力的提升。这就是AI对硬件的反向输出。
    再比如,大家每天使用的手机指纹识别,以前用的是电容屏,其原理是让指纹形成不同的电容值。而这几年为了追求更高的屏占比,开始用屏下光学指纹,相当于给指纹拍个照,难度明显更大。
    但AI算法在快速推动屏幕指纹技术的演进。以前的屏幕指纹,需要一个非常完整的图像,而最新的AI指纹识别技术,甚至只需要两根脊线就可以完成对身份的确认。“这就是当我们打通了传感器、算法以及整个成像技术之后,能够给大家带来的奇迹。”范浩强说。
    而从应用到算法到传感器的全链路整合能力,被认为是旷视算法定义硬件的核心。
    旷视是业界极少数能将传感器的光学、模组、电子学的设计能力,传感器的物理建模和算法能力,以及传感器的应用能力融为一体的公司。“旷视非常有幸能够成为其中一员,这也是我们进一步参与AI定义传感器这件事情的最大信心和底气。”范浩强说。
    而通过技术开放日,我们看到了一个AI公司相对完整的演进路径:既要有基础科研保证技术和算法模型的先进性,也要能让算法量产变成产品,反向定义硬件,最终让人工智能发挥出它的商业和社会价值。