极链科技张奕：消费级视频内容识别的算法设计与应用

2024.06.09 AiChinaTech

    近几年，视频行业迎来了井喷式爆发，随着人工智能技术的逐渐成熟，用户体验不断升级。
    在观看影视剧、综艺等视频时，我们总能在画面中看到跟视频场景相关的广告，比如当出现地标性建筑时，会出现旅游相关广告；当观看明星真人秀节目，会有同款服饰的购物链接。在这背后，是智能视频识别技术发展的成果。
    近期，极链科技AI研究院资深研究员张奕在公开课上进行了主题为《消费级视频内容识别的算法设计与应用》的讲解，从视联网产业简介、智能视频技术应用于消费级视频的挑战、数据的重要性与VideoNet视频数据集、视频内容识别的算法设计与应用四大模块进行了分享。

    以下为分享实录：
    在5G和AI的加持下，互联网演进出三大形态，物联网，视联网和车联网。目前视频占据了全网数据的80％，且仍在不断提高。视频将成为互联网最重要的入口，承担起信息传递介质和互联网功能载体的作用，进而形成以视频作为主要信息传递介质和功能载体的互联网形态，视联网。庞大的消费级视频是视联网的首个落地场景。
    作为「AI＋视频」行业独角兽企业，全球视联网开源操作系统构建者，极链科技专注于消费级视频AI技术研发和商业应用，聚焦以视频作为信息和功能核心载体的新互联网形态——视联网。以AI技术赋能视频中的信息，链接互联网信息、服务、购物、社交、游戏五大模式，实现基于视频的新互联网经济体。极链科技自主研发的VideoAI是视联网整个生态的底层引擎，VideoOS为视联网底层操作系统，是继PC时代Linux系统和移动互联网时代安卓系统之后的第三大操作系统。以VideoAI、VideoOS为基础，开发出广告、电商等各类视联网应用。
    视联网的基础数据即视频，尤其是消费级视频。区别于工业级视频是利用专业设备在固定条件、固定场景下拍摄的视频，如监控视频。消费级视频是指用户用手机等便携式图像采集设备生成的视频。消费级视频有三大特点。一，消费级视频数据体量巨大；二，消费级视频的类别多样，如电影、综艺、体育、短视频等；三，消费级视频场景复杂，如场景内的特效、切换、淡入淡出和字幕，都会对整体或局部产生模糊。以上特点对视频识别算法提出了更高的挑战。
    视频识别算法本身有较长的历史，然而受到计算能力的限制，算法各项性能与产品商业化要求间还存在较大的差距。直到2012年，深度学习技术、大数据及GPU算力的结合极大提升了算法准确率和运算效率，拉低了与产品商业化要求的差距。
    众所周知，深度学习的成功建立在大规模数据集的基础上。现有视频数据集从规模、维度和标注方式上都与深度学习算法的要求存在很大差距。今年，极链科技与复旦大学联合推出了全新的VideoNet视频数据集，具备规模大、多维度标注、标注细三大特点。

    第一，规模大。VideoNet数据集包含逾9万段视频，总时长达4000余小时。
    第二，多维度标注。视频中存在着大量的物体、场景等多维度内容信息，这些维度内容之间又存在着广泛的语义联系。近年来涌现出大量针对物体、场景、人脸等维度的识别技术，在各自的目标维度上取得了明显的进步。但各视频识别算法基本针对单一维度来设计的，无法利用各维度之间存在的丰富的语义关联建立模型，提高识别准确度。VideoNet数据集从事件、物体、场景三个维度进行了联合标注，为多维度视频识别算法研提供支持。
    第三，标注细。视频标注工作量非常巨大，当前大部分视频仅针对整段视频打标签。而VideoNet数据集对视频进行了事件分类标注，并针对每个镜头的关键帧进行了场景和物体两个维度的共同标注，充分体现了多维度内容之间的语义联系。
    那么，VideoNet数据集是如何进行标注的？首先，对视频数据进行预处理，即镜头分割，并根据清晰度对镜头单元进行关键帧提取。之后从三个维度进行视频标注，事件维度上对整个视频标注类别标签，物体维度上对镜头关键帧标注类别和位置框，场景维度上对镜头关键帧标注类别标签。目前，VideoNet数据集包含353类事件，超过200类场景和200类物体，总视频数达到9万。其中60％作为训练集，20％作为验证集，20％作为测试集。
    自6月18日「VideoNet视频内容识别挑战赛」公布训练和验证数据集以来，截止到8月12日，注册报名的队伍已超过360支，其中参赛队伍当中有来自中科院、北京大学、中国科学技术大学等顶尖高校队伍以及来自阿里巴巴、京东、华为、腾讯、大华等众多知名企业队伍。预计明年，极链科技将会继续增加VideoNet数据集的规模和标注维度。

    消费级视频的数据特点，对算法系统的处理速度、效率和准确率提出了较高的要求。消费级视频算法的总体框架分为五层：1、视频输入层进行视频源的管理；2、视频处理层进行镜头分割、采样、增强和去噪等工作；3、内容提取层主要分析视频中内容、语义等信息，进行目标检测、跟踪和识别等来检测目标在视频中的时间、空间、位置等维度；4、语义融合层进行目标轨迹融合、识别结果融合、特征表示融合、高层语义融合等；5、在数据输出层，进行结构化数据管理，方便后续数据检索与应用。
    视频内容识别维度多样，包括场景、物体、人脸、地标、Logo、情绪、动作、声音等。不同维度的算法结构有所区别。人脸识别算法结构为：输入视频后进行镜头分割，在进行人脸检测、跟踪、人脸对齐，根据质量评估过滤，进行特征提取和特征比对识别，最后进行识别结果融合，输入最终识别结果。

    在场景识别算法结构中，首先对输入视频进行镜头分割采样，有所不同的是只需进行时间间隔分割的采样，再对视频进行场景类别的初分类，预处理之后进入卷积神经网合阶段，卷积神经网络通过对不同的数据集进行预训练，得到不同的特征和描述，将这些特征进行融合、降维处理得到特征表示后，对不同场景如高频场景、次级场景和新增场景，进行分类处理，最终对识别结果进行融合。
    在物体、Logo识别算法结构中，有所不同的是需要多尺度提取特征，跟踪识别物体轨迹，并关注物体类别，对结果进行优化。
    在地标识别算法结构中，分为三步，第一，通过基础网络（VGG，ResNet等）获得特征图（一般为最后一层卷积或池化层）；第二，从特征图中提取特征（例如R－Mac，SPoC，CroW，GeM等）并用ROI Pooling，PCA 白化，L2－归一化等方式处理，一般最终维度为256，512，1024，或2048；用kNN，MR，DBA，QE，Diffusion等方式将得到的特征对数据库内的特征进行后处理获得最终特征；训练模型一般损失函数采用contrastive loss或triplet loss，最终比对一般采用余弦或欧式距离。
    我们自主研发的算法主要做了以下优化：1．对基础网络进行多层的特征提取（而不局限于全连接的前一层）并融合，降维等。2．采用CroW算法的核心思想对特征图的不同空间点以及channel增加权重，不同于CroW算法，我们的权重是通过端到端方式学习所获得。在2018、2019年Google地标识别挑战赛中，极链科技AI研究院蝉联了两届全球冠军。
    下面，介绍一下视频检索，也就是以图搜视频的流程。以图搜视频可以分为两部分，一部分是通过视频深度图像检索构建视频数据库，另一部分是用户检索时，输入图像到第一部分的视频库中进行检索。
    具体来看，首先通过视频下载、视频数据库检索、特征提取、特征排序等生成一个特征表述数据库，当用户需求输入后进行特征提取、比对、排序和结构展示。这是标准的检索流程。在算法结构方面，用户输入后会经过卷积神经网络和索引得出粗检索结果，再通过细检索进行排序、查询，最后输出镜头信息，另外也可以通过剧目信息进行子部检索减少搜索任务的压力，同时提高算法的准确率。

    以图搜视频的核心在于我们自研的深度图像检索模型VDIR，由视频任务调度系统派发的视频分片，经过镜头检测分割成片段，片段信息经过VDIR会生成视频信息库、视频特征库以及哈希索引库。用户输入一张或者多张图像，同时可以指定剧目信息，比如古装剧、玄幻剧等，输入的图像经过VDIR算法提取到哈希编码和特征，首先会去历史检索库中查找是否有相似的检索，如果有直接使用特征即进行细匹配，没有就会先通过哈希编码到哈希索引库中检索，然后进行细匹配，根据匹配相似度进行排序后，从视频信息库中查询到视频片段信息，配合截图输出到界面。
    深度图像检索模型VDIR会输出两部分内容，分别是用于快速检索的哈希编码以及用来细匹配的特征，一个片段的几个帧特征或者相邻片段的帧特征并不是都需要，因为我们设计关键帧筛选逻辑，只保留关键帧特征。
    为了将以上算法实际落地，还需要进行工程化的工作。在工程化工作中，需要解决以下几个问题：1、算法进行并行化加速其运营；2、面对高并发状态解决分布式系统和多任务调度的问题；3、对资源调度进行算法分割与CPU＋GPU配比；4、对高优先级任务规划处理策略。
    最后，向大家介绍一下三个算法实际产业化应用的案例。
    VideoAI视频智能识别和大数据运营系统，实现视频输入、识别、结构化数据管理和多维度检索全流程技术。极链科技独创独创全序列采样识别，对视频内的场景、物体、人脸、品牌、表情、动作、地标、事件8大维度进行数据结构化，32轨迹流同时追踪，通过复合推荐算法将内容元素信息升级为情景信息，直接赋能各种视联网商业化场景。
    灵悦AI广告平台，通过VideoAI将全网海量视频进行结构化分析，对消费场景标签化，结合品牌投放需求，提供智能化投放策略和批量化投放，让用户在观看视频时有效获取相关品牌信息及购买，实现广告主精准投放的营销目的和效果。目前通过VideoAI技术的赋能，灵悦AI广告平台已完成2012年至今全网热门视频，实现扫描累计时长达15，600，000＋分钟剧目复合双向匹配。开发了965类成熟商业化可投放情景，服务300＋百家一线品牌，并与全网头部流量视频平台签订深度投放合作，实现广告创新营销的新动能。
    神眼系统，广电级内容安全多模AI审核系统，可实现本地部署的高可用技术解决方案，提供长视频、直播、短视频的敏感、政治、色情、暴恐审核服务。产品核心功能包括：智能鉴黄（识别视频和图片中的色情、裸露、性感等画面）；智能鉴暴（识别视频和图片中的血腥、暴力、枪支等画面）；政治敏感人物识别（基于政治人物库，识别视频和图片中的国家领导人物或者落马官员等）；涉毒／涉政明星识别（基于明星库，结合黑名单，识别视频和图片中的涉毒、涉政等明星）。
    最后，想和大家强调一下数据对于人工智能发展的重要性。目前半监督、无监督算法还处于研究阶段，性能差距较大，我们所用AI算法大多基于监督学习，因此数据的体量和质量非常重要。我们要学会思考更多问题，例如采集数据与实际应用间的相关度，常规数据操作有哪些，如何获取“高效”的数据，如何应用数据管理工具让我们更好的管理、应用数据等等。谢谢大家！