AI修复百年前北京城爆火!老北京原来长这样

sunny梓筱

    最近,B站上有人将曾经加拿大摄影师在1920到1929在北京拍摄的黑白视频,经过自己对历史的了解,以及人工智能的一系列操作之后,一幅彩色的百年前的北京真实视频就展现在了我们的眼前。
    修复这个视频的过程,主要有三部分,分别是补帧、上色和分辨率扩增。简单点说就是让视频变得更流畅,比如把 24 帧变成 60 帧;让黑白视频变彩色;让视频变得更清晰,比如把 480P 变成 4K 分辨率。
    具体到工具,补帧用的是 DAIN,上色用的是 DeOldify,分辨率扩增用的是 ESRGAN。
    AI 是怎么修复老片的?
    先来看补帧的 DAIN。这是一个基于视频深度信息感知的时间帧插值算法,由上海交通大学,加利福尼亚大学和 Google 多方联合研发。
    为了方便更多用户使用,研发者还提供了一个免费的 Windows 软件“DAIN-App”。
    在视频领域,补帧其实不是件多新鲜的事。比如索尼电视的 Motionflow 技术和 AMD 显卡的 Fluid Motion 都是常见的补帧方案。
    它们的具体实现有不同,但原理大同小异,都是用计算机模拟相邻两帧间缺失的画面,让画面变得更加流畅。
    这些补帧方法都有一定局限性,如果画面里有大面积运动的物体,或者存在遮挡情况,补出来的影像就不是那么完美了。而 DAIN 所采用的方法,能很好解决这一问题。
    DAIN 算法不会直接生成画面,而是先通过获取视频深度信息,检测出物体遮挡情况。然后,从相邻像素收集上下文信息,来完成层次特征学习。最后,基于上述信息生成视频帧。
    简言之,DAIN 在模拟生成一帧画面之前,额外做了很多工作。它让计算机知道了一个平面视频里,不同物体之间的远近关系和遮挡情况。并且,用了一种更有效率的方式,来对像素点进行采样,以生成更高质量的画面。
    这样做的结果是,DAIN 生成的补帧画面,比起传统补帧方法,更像真实拍摄的。
    在 这段修复的视频里,如果仔细对比原片和 AI 修复片段,很容易可以感受到 DAIN 补帧的效果。比如下面这个场景里的人物动作,原片能感受到卡顿,而 AI 修复后流畅很多。
    视频上色方面,用到了 DeOldify。
    DeOldify 基于一种名为 GAN(生成对抗网络)的技术,这是一个在深度学习圈非常热门的项目。GAN 被 AI 界的领袖 Yann LeCun 称为 “过去 10 年机器学习中最有趣的想法”,它通过两个神经网络相互博弈的方式来学习数据,能生成逼真的新内容,其中一个广为人知的应用,是可以换脸的 Deepfake。
    DeOldify 采用了一种改良过的 GAN 模型,即保留了 GAN 训练的优点(绚烂的色彩),又消除了视频中物体闪烁等副作用。
    不过,DeOldify 所呈现的色彩还原结果,并不一定是真实的情况。
    分辨率扩增上用的是 ESRGAN,同样是 GAN 的应用。
    把一张图片放大超过其原本分辨率,是很多人经常会做的事。这样的结果是,图片会变得模糊,因此就有人去研究,怎么把图片发大超过分辨率,而不变得模糊。
    ESRGAN 利用深度学习方法来解决这一问题,相比传统方法,能得到更好的效果。
    人工智能技术与历史影像的碰撞,无疑给我们了解历史和社会演变提供了新的角度和体验,这是现代技术服务人类生活的生动例子。