顶会竞赛最后5天被Facebook超越，又大比分反超夺冠是什么体验？

2024.04.21 将门创投

    本文为将门技术社群第227期talk直播的文字内容整理分享嘉宾：旷视南京研究院研究员赵冰辰
    众所周知，参加顶会竞赛是当今AI研究人员锻炼自身、验证已有学术成果的一大舞台。从2017年到现在，旷视研究院在全球顶会累计荣获28项世界冠军，好奇的同学们肯定想知道其中的经验与技巧。
    为此我们很荣幸邀请到旷视南京研究院研究员—赵冰辰，与大家分享其团队在 CVPR 2020 iWildCam 项目夺冠的经历，同时也介绍了他们在本次比赛中针对 Camera Trap 数据的特点设计的方法及冠军方案。

值得一提的是，虽然旷视南京研究院在整个参赛过程中持续领先，但就在最终截止日期前5天，Facebook突然大比分反超。经过对现有模型的快速分析，团队通过序列和日期信息大幅提升了模型性能近10个点，在48小时内重新登顶，并夺得iWildCam的全球冠军。

    本文回顾了此次比赛的基本背景、团队方案，并介绍了团队总结的参赛经验，希望能为同学们带来启发。
    背景
    iWildCam竞赛隶属于 CVPR 2020 FGVC workshop，其目的是利用部署在野外无人操纵的 Camera Trap 来识别野生动物，从而辅助对野生动物的研究与保护。该比赛的难点在于，由于 Camera Trap 的拍摄机制是通过热感或运动来触发相机，因此成像效果与ImageNet或者是iNaturalist中的图像有很大区别。

一个典型的camera trap设备例如下图，每张图片中都存在动物，但是由于 camera trap 无人操纵的特性，获取的画面会受到光照、模糊、小ROI、遮挡、奇异视角、或者动物本身保护色等诸多因素的干扰。可以发现，定位到这些动物并且给出正确分类，即使对人类来说也比较困难。

Camera Trap数据的另外一个特点在于画面背景。由于camera trap固定在某个区域进行拍摄，因此由特定camera trap所采集到的图片背景相似度极高。如下图，Camera－1和Camera－2分别对应部署在两个位置的camera trap，可以发现同一个camera拍到的图片背景基本一致。而相应的，不同camera获取的背景差异显著。

    因此，这对分类模型的泛化性提出了极高的要求。iWildCam数据集总共包括263个类别，28万张图片，其中训练集441个camera trap，测试集111个camera trap。主办方将全部552个位置的camera trap分成为train set 441个，和test set 111个，这也就是说测试集图片全部来自训练集之外的camera trap 。另外，类别数据的长尾分布也是必须考虑的问题。因此可以总结，在Camera Trap场景下，主要存在三个问题： Camera Trap无人操作导致的图像模糊，遮挡等问题。来自训练与测试集不同背景所导致的泛化问题。野生动物分布带来的长尾问题。针对上述问题，旷视南京研究院在此次参赛中进行了逐项攻克。挑战一：ROI尺寸过小如前所述，iWildCam的第一个挑战来自于camera trap所捕获的画面，即动物图片经常存在过小或者被遮挡等问题。因此比赛主办方提供了Mega Detector（一个微软提供的Camera Trap动物检测器，输出类别只有animal和background）。因此，旷视南京研究院用Mega Detector来提取图像的ROI区域，从辅助进一步的分类工作。


    1  2  3  4  下一页>