宇视科技人工智能产品线总工程师李聪廷: 安防AI应用现状与展望

2024.03.27

    由中国高科技行业门户OFweek维科网和高科会主办、OFweek人工智能网承办“2018中国（上海）国际人工智能展览会暨OFweek（第二届）国际人工智能产业大会”于8月30日至9月1日在上海成功举办。
    此次展览会，形式多样，大咖云集，其中第一天的主论坛的AI技术相关演讲可谓精彩无比，香港科技大学机器人学院院长、IEEE院士王煜、深圳云天励飞首席方案总监王军等专家或企业代表都出席大会现场，为大会增添不一样的风采。
    其中，宇视科技人工智能产品线总工程师李聪廷给大家带来《安防AI应用现状与展望》的主题演讲，介绍了安防行业的三大变革，分别是网络化、高清化和智能化，重点介绍了现阶段的智能化变革阶段。
    首先简单介绍了网络化和高清化，随后再提出安防智能化阶段的热门研究领域——人脸识别。列举了公安、教育、机场、新零售等例子证明人脸识别的实际落地已经渗透到很多细分行业。此外，李聪廷先生认为，虽然人脸识别技术在安防领域已经很完美，但还是面临诸多挑战，第一相关算法无法做到百分之百的正确报警，第二是来自成像的挑战，第三是技术含量不高，设计与实际落地出现很大偏差。最后还提出了智能交通，指出智能交通是安防AI的一个主要方向，引出安防AI的三个展望。

    李聪廷先生
    以下是李聪廷先生的现场演讲内容，OFweek小编作了不改变原意的整理和编辑：
    各位朋友下午好，我是来自宇视科技的李聪廷，今天下午我给大家分享的主题是安防AI应用现状与展望。熟悉安防的朋友可能了解，安防行业一共经历了三次变革，分别是网络化、高清化和智能化。其中网络化和高清化是已经完成的变革，而智能化是我们目前正在进行的一场变革，也是我们此次分享的重点。
    温故而知新，我们简单回顾一下前两次变革到底发生了什么？
    网络化，大约发生在2006年前后。当时安防行业的现状是监控室，监控系统的规模通常在几十路的规模，最多可能是几百路。也就是说各个监控系统之间是没法互相连通的。在一个平安城市中，没办法在一个地方看到城市各个角落的视频。所以当时的一个技术突破是将IT技术应用到安防领域，将一个城市中几十万路摄像机进行互联互通。那么后来我们又进入到了高清化。刚才说的网络化解决的是看不见的问题。高清化要解决问题是看不清楚的问题。在高清化出现之前，我们标清视视频的分辨率最高只能达到720×576。而且事实上很多的视频监控系统，可能只有352×288的大小。
    在这样的一个分辨率下面，我们如何能够看清一张人脸、看清一个车牌。随着三色镜头编解码技术的快速迭代，我们很快进入了高清时代。经过数年的发展，200万分辨率已经非常的普及，成为业界的一个标配。在一些中高端应用，分辨率到了800万，1200万甚至更高。那么这两次的变革它有什么共同性呢？我认为有两点。第一点是技术的突破。网络化是IT技术应用于安防。高清化是镜头三色编解码等技术的一个快速发展。第二个是共通性，对产业链和行业来说是一次洗牌。
    在十年前，安防行业的从业厂家非常多，国外品牌有十几家，甚至更多，还有大量的中小设备提供商和解决方案提供商。到今天，国外品牌的安防厂商基本上退出了中国大陆市场，中小企业的数量也在逐年下降。从大势上来说，这次的智能化革命其实跟前两次非常的类似。首先它是有技术拐点出现，就是众所周知的深度学习技术的出现。其次这也是一定意义上的行业洗牌。对于能够跟上技术迭代，在技术上面专注投入的厂商可能是一次机会。对于没有能够跟上这次技术迭代的厂商来说，最后会直接出局。
    那么在智能化这个时代，其实前两次的网络化和高清化打好了一个很打下了一个很好的基础，使我们过去看不清楚看不见的这些图像，变成看得清楚看得见的图像。在安防智能化这场变革中，最热门的一件事其实就是人脸识别，人脸识别成为安防AI最热门、最主要的一个应用方向。为什么是人脸识别？我认为首先安防市场渴望人脸识别太久了。在过去的几十年间并不是没有人员识别有，但确实不好用，一定程度上甚至伤害了我们的用户。甚至有一段期间，大家觉得人脸识别是个忽悠，但是随着深度学习技术的出现，它发生了质变。在人脸识别的识别率上面有了一个巨大的提升，而这个提升期间所花费的时间非常短。
    当然深度学习技术并不是这几年才出现，而是只是说在安防里面真正的落地开始规模化应用是这几年的时间，人脸识别技术已经渗透到安防的每一个细分行业中。以公安为例，动态黑名单布控、近代大库人脸比对、轨迹碰撞，这都是非常普及的一个应用。又以教育行业为例，以前我们对人员的学生的管控，宿舍楼学校人员的管控，基本上是靠人工的一个管控。现在我们很多高校都装上了人脸速通门，也就是带有人脸识别功能的闸机。还有在机场我们过去的人证核验是靠人工来解决的，现在机场、高铁基本上都是通过机器来识别。又如新零售，我们可以应用人脸识别技术，提供vip识别，也可以做很多的商业分析。
    那么人脸识别技术在安防里面是否已经很完美的？已经很成熟了？我认为远远不够。目前我认为还是处于初级阶段。我们来看看人脸识别，目前到底有哪些问题和挑战？
    首先第一个是算法，算法无法做到百分之百的正确报警，我们会有漏报也会有误报。事实上有的漏报和误报通过算法很难解决。但是客户的期望是百分之百。所以这是我们所面临的第一个挑战。
    第二个挑战来自成像。我们给客户演示的时候，通常都是把我们最好的一面展现给客户，但是实际应用当中，我们可能会遇到各种各样的复杂情况，比如说宽动态问题，在背光很严重的情况下面，人脸很有可能是过暗的或者过曝的。这个时候如果一味的纯粹靠算法去解决，显然这条路走的不太对。
    那么在夜间怎么办？夜间很多时候自然的环境光是不充足的，这时候我们人脸可能也是看不清。于是乎我们想到了安装补光灯，它可以来弥补自然光不足的问题，但人脸不行，为什么？因为它直接照着脸，对于普通百姓来说，会觉得你这个东西很刺眼，但是对于犯罪分子来说，相当于提前预警，提前告诉你这个地方是有可能把你抓下来的，他会躲避镜头，所以这是一个我们要去解决的一个问题。
    还有一个问题，人脸识别对安装工程是有比较规范的要求的，但是执行起来却很难。打个比方，在家里面，我们去装修的时候，可以设计得非常清楚，细化到每一个开关每一个螺丝，但最终如果你让工人去装修完的时候，你再去看的时候，可能跟你当初想象的差别很大。同理，在安防领域的工程实施这个环节，执行环节其实也经常容易出现一些不规范的问题，最终导致效果不好。
    还有一个问题，前面说的三点其实是点上的问题。后面说的这是一个整个面上的问题。人脸识别在安防里面，演示容易落地难。我们认为在安防AI落地的过程中要迈过三道坎。第一道坎是核心技术突破。我相信现在很多的企业已经迈过了这个坎，现在在人脸识别领域，绝大多数企业已经迭代到深度学习，已经使用新的算法；那么第二道坎是演示落地的坎，或者说小规模落地的坎，这道坎很多企业也迈过去；第三道坎是规模落地，这道坎要迈过去并不容易。几十路的规模跟上千路甚至上万路的规模，它的挑战完全不是一个量级。在规模落地中，我们不仅要解决算法的问题和AI的问题，我们可能还要解决联网平台、大数据、云存储、硬件产品，这些问题都是我们需要逐一解决。
    其次，建设成本高。安防客户对成本是非常的敏感，如今安防AI多数应用于高端市场。在高端市场里面，它的价格也是比非AI的产品要高一些的。它的设备的成本可能是两倍，甚至更高。所以我们需要通过反复的产品迭代，把价格的门槛给降下来，当然质量是不能降。
    还有个问题，是我们很多厂商困扰的。场景定制个性化需求。举个例子，人脸识别1:1的比对，说起来就是一个1:1。理论上我们提供一类产品就可以了，但实际上我们在落地过程中，可能面向公安的、司法的、教育的、机场等场景都不一样，硬件产品形态可能也完全不一样。同样，软件方面的需求也会千差万别，差别很大。作为设备和解决方案厂商，或者AI算法厂商也好，不可能去做这么多的应用。怎么办？或者说我们怎么去抽象一些基础的部件。
    人脸识别在安防里面实在太火了，以至于很长一段时间，大家有个错觉，认为安防AI等于人脸识别，而实际上人脸识别在安防AI的应用中只占1/4，那么另外3/4是什么呢？首先我们不得不提智能交通。
    其实在16年以前，其实智能交通是安防AI的主要方向，只不过由于车是钢体，我们运用传统的cv方法，能够取得相对比较实用的，或者准确率比较高的一个结果。我们车牌识别率能够达到99.9%。使用传统CV的方法，深度学习技术，引入到智能交通领域，它对它是一个量变，不是一个质变。因此在当前的安防AI中可能很容易被人忽略它的一个技术迭代和进步，还有视频结构化的应用。
    大家可能觉得奇怪，我们能够看清人脸，能够识别人脸了，能够看清车牌了，为什么？我们还要去识别人体，去对这么小人体、车辆进行结构化。
    大家考虑一个问题，人脸识别它的入口条件是什么？我们认为它达到比较好的一个识别率，人脸的像素要达到80像素以上，或者说瞳距大于40像素以上。那么对于一台200万的相机，换算成监控宽度大概有多宽？三米左右。那么对于用户来说，建设成本是相当高的，而且是不可能既要完成监控场景的无死角的覆盖，又要说能够看清人脸，这是一个矛盾，而且这个矛盾可能是很多年都无法调和和解决的。所以说我们在关键的出入口，我们要去建人脸卡口，车辆卡口。
    但是我们从监控覆盖无死角的角度来看，我们需要继续沿着传统的视频监控的覆盖的场景范围去建设。那么这么多的这些海量的这些视频，显然纯靠人工去看是不现实的。因此我们需要对它进行视频内容的分析，对他进行结构化的描述描述，它是一辆车？一个人？男人？女人？衣着颜色？我们需要对他进行以图搜图，我们可以框选一个人，然后跨摄像机去搜索，找到它的轨迹，快速定位人。这是视频结构化的应用。
    那么还有一类应用是行为分析的应用。过去利用传统CV的方法，周界防范入侵类的这些检测算法，效果都不尽如人意，误报非常多。那么使用现在的深度学习技术可以极大地减少误报。这对行为分析类的产品来说，它也是一个质的变化、一个产品的换代。
    接着简单聊一聊我们对安防未来的一个看法。首先第一点，我认为安防AI的竞争将从三要素竞争演化到六要素，其实三要素在业界在前几年已经达成一个共识，算法数据算力缺一不可，很重要。但是我们认为是远远不够。因为在规模落地过程中，你要有性价比的产品，仅仅一个识别率给用户，用户是不可用的。用户是需要针对行业应用的业务，所以我们需要解决方案，我们也需要工程化的规范，不能一个好的产品，最终客户拿到安装以后，就是一个很烂的产品。
    那么第二个展望是我们认为边缘AI需求强劲，它将带动AI的快速产品上量。为什么是边缘？因为边缘的数量最多，多到是中心设备数量的几百倍甚至上千倍，这第一点。其次，它的建设成本最低，它不需要将海量视频全都回传到中心、去做智能分析，不是说中心不需要，而是说是边缘的量最大，边缘更有利于安防行业快速发展。
    第三个展望，我认为是未来的安防AI将是一个多点技术迭代，为什么强调多点？而不是单点，因为过去单点强调的算法，而未来可能会进入到每个点的提升，从而达到一个整体的提升。第一点，我们认为镜头、Sensor与ISP需要提升，跟成像强相关。第二点，我们认为AI的处理芯片需要提升，AI芯片摩尔定律在接下来几年一定会持续。过去我们说AI芯片算力可能1T我们已经很惊讶了，现在30T甚至更高比比皆是。然后我们认为后面的摄像机它将是一个物联网的一个网关，它不仅仅是具有视觉的功能，它还具有传感器，可能还有语音的交互等多个功能，它需要模仿人一样，它是双目的，他又要有深度信息，当然在近距离不一定是双目。然后AI算法我们认为会持续迭代，但是可能算法可能要提升两个点，但是算力可能要翻个两三倍，这都很有可能.
    然后算法方面还有一个趋势，有可能会从人脸识别到人体的识别。然后还有一点就是云边结合很重要，边缘可能更多做的是结构化的事情，云端更多做的是结构化信息的融合、数据的挖掘、数据分析以及业务的应用。将点状的数据串起来。
    下面简单介绍一下宇视的一个解决方案，针对AI推出了全融合的智能解决方案，叫做UniAI。在理解上很简单，我们就是将所有的前端智能、后端智能等全部智能拉通管理起来，为不同的场景不停不同的应用，提供不同产品，但是它是统一拉通的，然后我们是六要素全面的发力。
    然后这边再讲我们的软件能力，IMOS是我们与是在安防推出的一个多媒体操作系统，我们已经迭代了十年。目前在智能化的时代，我们也融入了很多的智能功能和解决方案。我们可以把所有的云边的设备GPU进行调度起来，资源的负载均衡。同时我们还有一个开放的生态，把定制化的需求留给当地的一些中小企业的集成商，当然也会把一部分利润分享给他们。那么我们目前的宇视的智能解决方案已经在很多的领域得到了应用，比如600多所的高校，500多个平安城市等。
    由于时间关系，以上就是我的分享，也非常感谢大家，如果大家有一些技术方面交流，我们可以下来再交流，谢谢。