Google AI生成具有逼真照明和反射的3D模型图像

2024.06.09 胡说科技

    人工智能（AI）合成的三维物体模型看起来并不牵强。在蒙特利尔的NeurIPS 2018会议上的论文中，麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）和谷歌的研究人员描述了一个生成的AI系统能够用逼真的纹理创造令人信服的形状。
    人工智能系统视觉对象网络（VON）不仅可以生成比某些最先进的方法更逼真的图像，还可以进行形状和纹理编辑，视点偏移以及其他三维调整。
    “现代深层生成模型学会合成逼真的图像，”研究人员写道。“大多数计算模型只专注于生成2D图像，忽略了世界的3D性质，这种仅有2D的视角不可避免地限制了它们在许多领域的实际应用，例如合成数据生成，机器人学习，视觉现实和游戏行业。”
    VON通过联合合成三维形状和二维图像来解决这个问题，研究人员将其称为“解开对象表示”。图像生成模型被分解为三个因素：形状，视点和纹理，首先学习在计算“2．5D”草图和添加纹理之前合成三维形状。
    重要的是，因为这三个因素是条件独立的，所以模型不需要二维和三维形状之间的配对数据。这使得团队能够在大规模的二维图像和三维形状集合上进行训练，如Pix3D，Google图像搜索和ShapeNet，后者包含55个对象类别的数千个CAD模型。
    为了让VON学习如何生成自己的形状，该团队训练了一个生成对抗网络（GAN），一个由生成样本和鉴别器组成的生成器组成的两部分神经网络，试图区分生成的样本和现实世界样本，在上述三维形状数据集上。纹理生成被降级到另一个基于GAN的神经网络。
    经过大约两到三天的培训，AI系统始终如一地生成令人信服的128 x 128 x 128模型，具有逼真的反射，环境照明和反照率（漫射光或辐射的测量）。
    为了评估图像生成模型，团队计算了生成的三维模型的Fréchet初始距离，与人类感知相关的度量。此外，他们还展示了来自VON和最先进模型的200对生成图像，以及亚马逊机械土耳其人的五个主题，他们的任务是选择更真实的结果。
    VON表现非常出色。它与所有AI模型相比具有最低的FréchetInceptionDistance，并且Mechanical Turk受访者更喜欢其生成的图像74％到85％的时间。
    研究人员将未来的工作留给粗略到精细的建模，以更高的分辨率生成形状和图像，将纹理分解为光照和外观，并合成自然场景。
    “我们的主要想法是将图像生成过程分解为三个因素：形状，视点和纹理，”该团队写道。“这种解开的3D表示使我们能够在对抗性学习框架下从3D和2D视觉数据集合中学习模型。与现有的2D生成模型相比，我们的模型合成了更逼真的图像；它还允许使用以前的2D方法无法实现的各种3D操作。“
    近年来，GAN的研究突飞猛进，特别是在机器视觉领域。
    谷歌的DeepMind子公司在10月推出了一个基于GAN的系统，可以用完整的布料创建令人信服的食物，风景，肖像和动物照片。9月， Nvidia的研究人员开发了一种AI模型，可以生成脑癌的合成扫描，8月份，卡内基梅隆大学的一个团队演示了人工智能可以将人的记录动作和面部表情转移到另一张照片或视频中的目标对象。最近，爱丁堡大学感知研究所和天文学研究所的科学家设计了一种可以产生幻觉的GAN，或者至少是高分辨率的星系图像。