【旷视】参与“维科杯·OFweek 2024（第九届）人工智能行业年度评选”

2024.10.15

    维科杯 · OFweek 2024（第九届）人工智能行业年度评选（OFweek 9th AI Awards 2024）由中国高科技行业门户维科网主办、维科网人工智能承办，该评选是人工智能行业内的一大品牌盛会，亦是高科技行业具有专业性、影响力的评选之一。
    此次活动旨在为人工智能行业的产品、技术和企业搭建品牌传播展示平台，并借助 OFweek 平台资源及影响力，向行业用户和市场推介创新产品与方案，鼓励更多企业投入技术创新；同时为行业输送更多创新产品、前沿技术，一同畅想人工智能行业的未来。
    维科杯 · OFweek 2024（第九届）人工智能行业年度评选（OFweek 9th AI Awards 2024）于 2024 年 7 月 1 日－ 7 月 19 日进入网络投票阶段，颁奖典礼于 8 月 28 日在深圳举办。目前，活动正处于火热的企业申报阶段，业内企业积极响应。
    参评企业
    旷视是一家聚焦物联网场景的人工智能公司，基于业界领先的AI科研与工程实力，旷视打造出软硬一体化的AIoT产品体系，面向消费物联网、城市物联网和供应链物联网的核心场景提供解决方案持续为客户和社会创造价值。

    参评信息
    申报奖项：维科杯 · OFweek 2024 人工智能行业优秀创新力产品奖
    产品名称： AI人像视频生成框架 —— MegActor
    产品特点：
    基于该框架，用户只需输入一张静态的肖像图片，以及一段视频（演讲、表情包、rap）文件，即可生成一段表情丰富、动作一致的 AI 人像视频。MegActor 所生成的视频长度，取决于给定的驱动视频的长度。MegActor 能够呈现出丝毫毕现的效果，面部细节更加丰富自然，画质更出色。
    参评理由：
    MegActor 是旷视研究院的最新研究成果。在目前的人像视频生成领域，许多工作通常使用高质量的闭源自采数据进行训练，以追求更好的效果。而旷视研究院始终坚持全面开源，确保实际效果的可复现性。MegActor 的训练数据全部来自公开可获取的开源数据集，配合开源代码，使得感兴趣的从业者可以从头开始完整复现这些令人惊艳的效果。
    为了完全复刻原始视频的表情和动作，MegActor 采用了原始图像进行驱动，这与多数厂商使用 sketch、pose、landmark 的中间表示皆然不同，能够捕捉到细致的表情和运动信息。
    在 AI 视频生成领域，我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号，同时生成视频相较于原肖像的保真程度也不尽如人意。通过一系列研究发现，使用原视频进行驱动，不仅将帮助用户降低控制信号的门槛，更能生成更加保真且动作一致的视频。
    为此，MegActor 开创性地采用了条件扩散模型。首先，它引入了一个合成数据生成框架，用于创建具有一致动作和表情但不一致身份 ID 的视频，以减轻身份泄露的问题。其次，MegActor 分割了参考图像的前景和背景，并使用 CLIP 对背景细节进行编码。这些编码的信息随后通过文本嵌入模块集成到网络中，从而确保了背景的稳定性。
    在数据训练方面，旷视研究院团队仅使用公开的数据集进行训练，处理了 VFHQ 和 CeleV 数据集进行训练，总时长超过 700 小时。同时，为了避免 ID 泄露问题，MegActor 还使用换脸和风格化方法 1:1 生成合成数据，实现表情和动作一致、但 ID 不一致的数据。此外，为了提高对大范围动作和夸张表情的模仿能力，团队使用注视检测模型对数据进行处理，获取大约 5% 的高质量数据进行 Finetune 训练。
    欢迎投票
    本届 “OFweek 9th AI Awards 2024” 活动于 7 月 1 日已经进入投票阶段，请关注维科网人工智能相关评选新闻，欢迎踊跃投票。
    人工智能年度评选专题链接:
    https://www.ofweek.com/award/2024/AI/
    投票链接：
    pc：https://www.ofweek.com/award/2024/AI/vote/
    wap：https://www.ofweek.com/award/2024/AI/vote/wap/