英伟达再出AI黑科技，通过生成模型渲染3D环境

2024.10.13 张康康

近日，在蒙特利尔举行的神经信息处理系统大会(NeurIPS)上，英伟达在一篇题为“视频到视频合成（“Video-to-Video Synthesis” ）”的技术论文中阐述了其最新AI成果。

    据透露，英伟达最新研发的这项成果，是可以渲染合成交互式3D环境的AI技术。在创建逼真的3D环境时，英伟达研发团队不再使用传统的图形技术，而是使用神经网络，特别是“生成模型”，通过来自如YouTube等来源的真实视频，进行模型训练，最终构建逼真的3D虚拟世界。
    英伟达研发团队之所以使用“生成模型”来提高输出的准确性，是由于这种模型要求机器必须有效地内化数据的本质，它也因此被广泛认为是促进机器“理解”大量数据之间关系的最有前途的方法之一。

但是，像所有神经网络一样，使用这个模型也需要训练数据。幸运的是，英伟达研发团队将AI模型应用于街景，通过自动驾驶项目采集到的大量视频数据，确保了其关于城市街道上行驶车辆的训练镜头，再以分段网络识别不同的对象类别，如地面，树木，汽车，天空，建筑物等，开发算法以了解每个对象与其他对象的关系，最终，这些模型创建了城市环境的基本拓扑结构，然后AI再从基于从训练数据中学到的东西，模拟世界外观，包括照明，材料和动态等，由此生成几乎是还原性的高逼真3D环境。

    “由于场景是完全合成生成的，因此可以轻松编辑以删除，修改或添加对象”英伟达表示。
    在论文中，英伟达研发团队得出的结论是：“我们提出了一种基于条件生成对抗网络（GAN）的通用视频到视频合成框架：通过精心设计的发生器、鉴别器网络以及时空对抗物镜，我们可以合成高分辨率、照片级真实、时间一致的视频，大量实验表明，我们的结果明显优于最先进方法的结果。”
    不得不承认，迄今为止，AI已经是人类最强有力的创新“加速器”，它让人类的能力得以延展，并逐渐变得更加强大。我们都能看到，在全世界范围内，数以万计的科学家们都在为AI技术的前沿突破做出努力，除了英伟达之外，不论是像Google、Facebook这样的海外巨头，还是类似国内旷视科技、极链科技这样的AI科技公司，都致力于全力研发产出能像人一样思考的AI技术。今天，旷视科技已经实现AI识别人脸对象中的各种特征，极链科技已经实现AI理解海量视频的场景表达，而未来，AI必然不仅是会让机器“知其然”，还要做到让它“知其所以然”，以最终实现推动整个AI进入“深度智能”的伟大愿景。