人工智能基础与安防深度学习

2024.06.09

    目前，AI早已成为各行业热点关键词，物理安防行业也不例外，人工智能也是一股有可能改变和重新塑造行业的重要力量。
    广义的人工智能（AI）指的是关于机器计算的智能，而非人类本身。在安防行业，我们所说的AI指的是机器模仿人类及其它生物认知功能的技术应用，即模仿人类大脑学习和解决问题的思路和方法。
    人工智能推动安防行业快速发展
    当前，计算机行业的三大趋势正在推动人工智能的快速增长。这三大趋势分别是：
    首先，计算机硬件的崛起能够处理复杂的计算，尤其是图形处理器（GPU，其使用“并行处理”模式而不是我们熟悉的CPU“串行处理”模式）。可以同时并行处理多个计算任务，效率远远高于“串行”模式。而且这是一种更具可扩展性的方案：将大问题分为许多可以同时解决的小问题来处理。其次，更有效“训练”系统编程方法的发展，特别是神经网络，它能够与GPU并行处理同时工作。
    神经网络是由许多简单、高度互连的处理单元组成的计算系统，通常以层的形式构成，每层由互连的节点组成。每一层计算出的结果决定下一层的输入。神经网络可能超过一百层，因此能够将大量复杂的数据。第三，传感器（包括摄像机）的激增，产生足够大的数据，使系统能够被有效地“训练”（例如“大数据”）。
    “大数据”的激增提供了大量的训练数据。而安防视频监控数据占据了大数据的60％，并且每年还在以20％的速度增长。这种数据的激增为人工智能发展提供了源动力，并且增强了系统的功能。
    人工智能系统训练
    在GPU上运行的神经网络中，学习规则不断优化调整连接的权重（重要性）；每一层都有不同的“权重”，反映了在前一层学到的东西。当呈现数据模型（例如视频图像）时，神经网络能够通过分析模式判断它可能是什么。
    训练包括了确定初始结果与最终结果的过程，并对连接权重进行适当调整。用高度概括性的术语说，这就是AI系统的“学习”方式。不过整个“训练”过程分为多个阶段，就像过滤器一样，每个阶段的结果都引导通往正确分析的路径。
    深度学习是更广泛的机器学习方法的一种类型，也是与安防视频行业最为相关的概念。深度学习需要使用大量来自能神经网络学习系统的数据（例如，视频图像）。
    视频监控系统中的深度学习
    神经网络互相连接的处理单元与GPU并行工作，它们被设计成模仿人类大脑通过数十亿个神经元分析处理问题。人工智能深度学习，正在成为新一代视频监控系统的基础，赋予了传统系统卓越的性能表现。
    这种方法极大改变视频监控系统的有效性。在此之前，计算机已使用视频分析算法进行编程。相比之下，深度学习系统才是更加“训练有素的”。如果你想识别一只猫，则提供大量猫的图像，系统将之分解成较小的组件并寻找共性的数据。然后它就会“学习”这些案例中的共同特征。
    为了最大程度地训练，系统呈现的数据越多，它就越精确，即“学习”到的越多。通过大量的案例数据学习，深度学习系统便形成相应的识别模式。
    从训练到推理
    虽然计算机程序员也可以花费数月时间编写指令来告诉计算机汽车长什么样，但神经网络可以通过展示大量的示例来“学习”，不需要编程。另外，训练神经网络也很费时间，可能需要数小时或数天。训练也属于计算密集型工作。
    然而，一旦训练了神经网络，我们就可以用来“推断”，协助决策，例如，判断一张新拍摄到的图片里面是否有猫。这使得我们能够在诸如网络视频录像机（NVR）之类的设备上，甚至在网络边缘的视频摄像机中部署受过训练的系统，从而能够快速识别目标物体，并快速做出相应决策。
    深度学习可以实现超人类模式识别准确性，还具备抵抗干扰性，能分类和识别数千个不同特征。例如，最新的人脸识别、车牌识别系统准确率都已经接近100％，这些特性使得深度学习对视频分析应用具有很高的价值和意义。