ECCV2020 GigaVision挑战赛,深兰科技包揽十亿级像素双赛道冠军

深兰科技

    
    日前,全球计算机视觉顶会ECCV 2020落下帷幕,各项挑战赛的结果也尘埃落定。深兰科技DeepBlueAI 团队包揽了首届GigaVision挑战赛“行人和车辆检测”和“多目标追踪”两个赛道的冠军。
    
    
    过去十年中,行人检测、跟踪、动作识别、异常检测、属性识别等以人为中心的计算机视觉分析任务引起了人们的极大关注,为了促进新的算法来理解大规模现实世界场景中复杂的人群活动及社交行为,可把图像放大千倍的十亿级别像素目标检测,将在例如人脸识别、无人驾驶、监控安防和智能手机等多个领域被广泛应用。
    计算机视觉作为深兰科技的核心技术之一,其实力已在多个国际顶会竞赛中得以验证,并已应用于不同领域的产品中,包括疫情期间发挥了极大作用的深兰AI热感视觉行为监控系统-猫头鹰,在广州、深圳、武汉、上海、长沙等多地获得自动驾驶路测牌照的熊猫智能公交车,以及各类机器人和智能零售产品等。
    双赛道冠军方案
    GigaVision赛题介绍
    以人为中心的各项计算机视觉分析任务,例如行人检测,跟踪,动作识别,异常检测,属性识别等,在过去的十年中引起了人们的极大兴趣。
           为了对大规模时空范围内具有高清细节的人群活动进行跨越长时间、长距离分析,清华大学智能成像实验室推出一个新的十亿像素视频数据集:PANDA。
           该数据集是在多种自然场景中收集,旨在为社区贡献一个标准化的评测基准,以研究新的算法来理解大规模现实世界场景中复杂的人群活动及社交行为。围绕PANDA数据集,主办方组织了GigaVision 2020挑战赛。
    本次的挑战赛同时是ECCV2020的Workshop:「GigaVision: When Gigapixel Videography Meets Computer Vision」。
    任务介绍
           挑战赛的任务是在由十亿像素相机收集的大范围自然场景视觉数据集PANDA上进行图像目标检测和视频多目标跟踪。
    Sub-Track 1 : Pedestrian & Vehicle Detection
    这项任务是为了推动在十亿像素图像上的目标检测技术的发展。挑战的参与者需要检测两类目标:行人和车辆。对于每个行人,需要提交三类检测框:可见身体范围框、全身范围框、行人头部范围框。对于每个车辆,需要提交可见范围框。一些特殊的区域(如假人、极度拥挤的人群、车群、被严重遮挡的人等)将在评估中被忽略。
    Sub-Track 2 : Multi-Pedestrian Tracking
           这项任务是为了推动在十亿像素视频上的多目标追踪技术的发展。PANDA宽视场、多目标、高分辨的优越性能使特别适合于多目标长时间追踪任务。然而,巨大的同类目标尺度变化和拥有丰富行人拥挤、遮挡的复杂场景也带来了各种挑战。在给定输入视频序列的情况下,该任务需要参与者提交行人在视频中的轨迹。
    评测指标
    对于赛道一,类似于MS COCO数据集的评估方案,主办方采用AP、APIOU=0.50、APIOU=0.75、ARmax=10、ARmax=100、ARmax=500五个指标来评估检测算法的结果。最终的排名依据于 AP 和 ARmax=500 两项指标的调和平均数,高者为优。
    
    对于赛道二,与MOTChallenge[2]中使用的评测方法类似,主办方采用了包括MOTA、MOTP、IDF1、FAR、MT和Hz等指标来评估多目标追踪算法的结果。最终的排名依据于 MOTA 和 MOTP 两项指标的调和平均数,高者为优。
    
    
    1  2  3  下一页>