阿里达摩院参与制定VCM国际视频标准,提案斩获两项第一


    11月18日消息,在国际视频标准MPEG Technical Requirements工作组关于MPEG Video Coding for Machine(以下简称“MPEG-VCM”)的技术征集提案评测中,阿里巴巴达摩院联合香港城市大学提交的方案在机器视觉任务中取得2项第一,是唯一一个斩获多项第一的提案。据悉,MPEG于今年上半年向全球发布MPEG-VCM技术征集书,10月完成响应提案性能的评测,该阶段的提案将为后续标准制定提供重要参考。
    视频编码是视频信号存储和传输的基础,它可以在人眼观看无明显质量下降的情况下将视频压缩数百倍甚至数千倍,极大地降低视频传输带宽成本和存储成本。该领域于上世纪八十年代开始进入标准化发展,至今面向人眼的视频编码标准已经历了多代的迭代和优化,目前最新最高效的视频编码标准为H.266/VVC标准。
    随着自动驾驶,智慧城市和工业互联网等人工智能场景的发展,面向机器的视频编码需求急剧上升,以机器视觉为主的机器到机器的数据传输预计将于2023年占据全球数据传输总量的约50%。相比传统视频,该类场景具有高观测精度、高感知灵敏度、高强度工作耐受性等特点,业界迫切需要全新的视频编码技术。为此,MPEG于2019年7月成立VCM工作组,推进机器视觉视频编码标准化工作,并吸引了阿里巴巴、爱立信、诺基亚、浙江大学及ETRI等国内外企业和机构的参与。
    提案征集是视频标准制定的重要阶段,本次MPEG-VCM共接收到来自全球16家企业和机构的提案,所有提案在多项机器视觉任务和多个数据集上进行测试。以BD-rate和BD-rate(Pareto)指标衡量各个提案相对于H.266/VVC标准的码率节省,最终,达摩院联合香港城市大学的提案(Proposal 02)在物体检测任务中取得两项性能第一。
    
    (图:达摩院与香港城市大学的提案获得两项第一)
    据介绍,达摩院提出了全新的VCM框架,联合自适应时空域编码方案JAST,该方案包括面向机器的预分析、面向机器的预处理、自适应时域变采样、自适应空域变采样和核心视频编码器五大模块,最终有效提升面向机器视觉任务性能的压缩效率。在标准测试条件的物体检测任务中,JAST方案可获得平均39.04%的性能提升。
    达摩院研究员叶琰表示:“随着超高清视频、AR/VR、自动驾驶、智慧城市和工业互联网等新应用的爆发,视频编码技术既要面向人眼也要面向机器,我们将持续深度参与国际视频标准的制定,用创新技术为各行各业降低带宽成本。”
    过去几年,达摩院积极参与国际视频标准的制定,在ITU-T和INCITS等重要国际视频标准组织中担任主席和副主席职位,达摩院自研的Ali266在全球编解码顶级赛事MSU 2021比赛中获得了全高清FullHD客观性能赛道的8项第一和主观赛道的冠军。