Video++极链科技董慧智解构AI赋能新文娱

2024.07.13 张康康

10月15日，由国家发展和改革委员会、工业和信息化部、国家网信办指导，中国人工智能产业发展联盟（AIIA）主办的2018 AIIA人工智能开发者大会在苏州国际博览中心盛大召开，Video＋＋极链科技联合创始人＆COO董慧智受邀出席，并在主论坛就《解构AI赋能新文娱产业》带来精彩演讲。

    以下为Video＋＋极链科技联合创始人＆COO董慧智的演讲实录：
    感谢大家！今天听了这么多，其实我觉得AI已经成为现在整个高科技领域的主流，但其实在我们刚刚创业的2012年，AI还是一个很偏的话题，当时是很苦的，直到2014年、2015年，日子才开始好过了，在这里面，我们也是最早应用的。
    在AI应用领域里面大家熟知的有安防、智慧城市等，另外一个领域就是与大家的生活、消费息息相关的、同时也是互联网中间信息集中度最高的领域——文娱。文化娱乐是非常大的领域，和广告、电商很多商业模式直接关联，而我们盯准的就是文娱领域，要做用AI赋能新文娱产业，然后和广告、电商、新零售关联在一起，从而发挥出万亿级的市场潜能。
    从我的理解来看，Video＋＋从2012年开始做，我们就在思考AI能做什么事？包括刚才机器之心讲的，AI能够做的就是把海量用户、海量信息、海量需求，用统一自动化方式撮合在一起，产生出很多连接点，从而创造出非常大的经济价值。
    我把这个过程分成三个步骤。第一个步骤是感知，不论是语音识别、语义识别、图像识别、视频识别，都是感知的部分，不仅是感知别人说话的含义、每个眼神的含义，我们现在做的还有感知每个图像背后表达的什么情感、什么故事等。之前讲过一个结构模型，知识图谱模型，任何一个互联网视频，往上都有基础要素，包括明星、物体、人物、场景，这些都是基础标签，再往上就是情感，再往上就是故事，现在大家都在花大力气做这一块的感知。
    感知只是第一步，把海量的模拟信息转化成数据信息之后，这个量太大了，就要做自动化。当我把现有的方法论、把以前人操作的部分转变成公式，转变成自动化的系统，才能逐渐显露出人创建的方法论的局限。
    人的很多棋谱都很精妙，但是当我把AlphaGo这样自动化的机器和围棋高手放在一起，才能可以发明出更多的棋局，就进入了第三步优化，我们在进化这个过程，需要让机器的感知更像人的五官以及其他器官一样，自动化得像神经，我们每个肌肉动作都不是大脑思考的，有本能自动的过程。最后一步当机器达到可以思考、可以优化、甚至模糊优化的时候，这个时候才是AI走向大脑智能的时候，这是我们对AI未来发展的理解。
    而我们正处在自动画像、优化这个方向当中，我相信这也是很多AI企业正在努力的方向。在我们看来，国内AI公司，我们分三大类，AI算法公司、AI应用公司、AI硬件公司；而我们是典型做应用的公司，而且非常垂直，专注在文娱领域。而AI未来应用最广泛的六个领域，包括安防、机器人、无人驾驶、医疗、文娱，这是我们判断在五年之内会真正创造出万亿级市场潜能地方。

    讲到AI＋文娱，我们介绍一下自己，我们从2012年开始创业，目前发展到C轮，是AI＋文娱领域的独角兽，集团旗下包括AI场景广告、电商、新商业IP、新零售等各种产业，投资方包括阿里巴巴、旷视科技、优必选等。
    对于新文娱产业是怎么催生这样大的体量的，我们发现有几个效应，当经济走缓之后，更多的文化产业占娱乐的比重会增加，此时95后、00后的消费心理逐渐从需求消费心理出发，转变成触发型经济，比如80后买东西是搜索，想买什么买什么，从而成就了淘宝京东，而现在的很多95后、00后，他们买东西更多的是，被什么打动了买什么，从而才会有现在的种草、拨草，文化娱乐触动的粉丝经济、IP经济也好，都是一个非常强劲的趋势。但是如果只用人工的方式培养粉丝，太慢了，而AI会大大加快这个进程。我们利用70％的长尾视频和直播的流量，用AI的方式，把种草拨草的过程自动化，就可以产生大量的文娱消费，包括广告、电商等，这是我们的发展历程，也是很多AI公司未来会发展的路线。
    我们在2012年开始做AI技术，我们从那个时候开始，就专注AI文娱这个领域。到了2014年，我们发现作为一种技术而言，我们是比较领先的，之后就开始寻找应用场景。当大家都在看视频的时候，往往只是在那看，没有办法和视频内容进行深度互动，于是我们做了第二套产品，VideoOS。这套系统就是把VideoAI识别出来的数据，通过用户可以直接互动的方式和AI数据结合，从而产生投票、购买、点击广告等行为，当这些用户行为和现在的产业经济关联起来之后，就产生了一个很大的应用场景。
    我们一方面在找AI应用场景，另外一个方面创建应用场景。
    这是我们总体架构，也是我们现在能够占据在众多视频以及直播平台，都使用我们的操作系统的原因，现在来说已经形成了一个闭环。一套系统VideoAI，把视频数据辨识出来，形成一个数据库，现在已经做到了全网热剧的数据化，数据自动通过VideoOS进行匹配，当一个用户打开视频，把场景自动匹配到相应的广告，比如说啤酒、一些女性喜欢的饮料等，在合适的节点把广告自动推送出来，这就是通过视频场景所产生的情感共鸣，直接转化成广告点击和广告销售，这个过程就在第二套系统里面实现，这套系统就是一个在视频中的小程序，所承载的业务就是广告、电商、新零售，三大块业务。
    这是一个介绍我们AI技术的视频。首先我们用全序列识别算法，像Face＋＋这样的公司人脸识别已经做的非常好了，为什么要投资我们，是因为我们完全从视频出发，所以在视频处理过程中，最基本的单位就是视频，而不是理解成图像的集合，我们算法中间融合了很多特殊算法，比如说去特效，场景聚合等等，这些算法最后一步才是图像识别，这是之所以我们能做到这个领域最专最深入的原因。
    技术方面，白色是我们技术的处理，经过一个系列的处理之后，把视频结构化成为一个数据库，我们称之为视频结构化数据库，这个数据库就很像知识图谱，只不过这个图谱是2012年到2018年全网热剧的数据，经过存储之后，通过匹配算法完成用户标签和广告需求匹配，自动推送相应广告，实现海量用户、海量信息、海量需求自动化，这套系统是我们所做的，现在已经批量化商用，我们这套视频AI商业化解构系统已经是市场端商业应用最成熟的一套系统。
    关于技术壁垒，我们在这个领域目前在全球是领先的。刚刚说到，我们有一个数据库，数据库长什么样？我们把文娱视频分成四个层次，最底下是视频层，所有的平台都有一个媒体库，决定了我的视频库有哪些综艺节目、电视剧、电影、短视频，媒体库是视频层；第二层是信息层，大家看到的AI辨识出来的东西、人、物体等；最下面一层是情境层，最终能够打动人心的部分，为什么年轻人愿意为一个只是五十块钱的成本东西，花五百块钱去买，就是因为被这个视频的娱乐特性打动；而每种不同视频场景都对某一品类的广告或电商有非常高的转化作用，这就使得AI有了很强的用武之地。

    我们把识别的数据库和我们的广告关联起来，就是用的VideoAI底层识别系统，匹配到用户体验最好，同时转化效率最高的广告，再通过VideoOS中用户喜欢的程序，让用户参与投票、卡牌收集游戏、发红包、购物这样的过程，转化率非常高。我们去年做过实验，在同样一个场景当中，普通的广告，转化率千分之二左右，但是用我们的旅游贴、或者说投票，可以达到平均3％的转化率，为整个商业带来很大的价值。
    这是长隆游乐园在芒果TV投的广告，带来了很大的转化率而且效果非常好。
    第二个例子是Tutor ABC，一个英语教育公司，我们识别的是明星说英语的场景，当一个明星在视频当中说英语，就把这个关联的广告推出来，转化率极高，他们已经第五轮下单了。

    2018年，Video＋＋到了C轮，会有更多新的增长点。网络视频每天十几个亿播放量，覆盖4．5亿人群，但目前为止只有1％的填充率，我们还在尽可能多吸引更多的用户进来，但是熟悉广告的都知道，广告的商业场景有各种要求，不可能做到百分之百，但很多场景都可以用电商、新零售的方式进行填充。
    在文娱电商这个领域，我们制定了行业标准，通过千人观看带来的销售额——VPM值来衡量其中的商业潜力。包括我们与芒果TV合作的超级IP，如《歌手》、《爸爸去哪儿》、《妈妈是超人》等2018年的超级IP，VPM值都非常可观，在超级IP上，未来还会带来更多的商业化变现。
    后面还有一些美食类的案例，就不做详述了，如果对AI文娱感兴趣，希望可以和Video＋＋多联系，谢谢大家！