机器学习不断接近人脑水平 AI图像识别未来发展如何？

2024.05.21 张康康

    过去十几年，人类可以说是在机器智能面前节节退败，屡败屡战，而多任务处理（multi－tasking）几乎是为数不多可以让人类骄傲的事情了。人们可以同时打开8个网站、数份文档和一个交友软件，即使正在专心处理其中一件事，只要突然收到一条回复或更新提醒，也能够快速安排。对机器而言，要在同一时间完成这样的任务显然有点困难，因此，多任务处理一直被视为人类独有的技能点。
    然而，这个优势也将失去了。
    近几年，Alphago、视频识别、指纹解锁、图片识别、语音转文字、机器人看病等一系列事件，使我们深刻的感受到人工智能在改变我们的工作方式和认知。国内人工智能产业中，就算集视觉与图像领域公司的数量已达数百家，仅次于自然语言处理类公司，位居第二。其中该领域最为出名的创业公司包括旷世科技Face＋＋、商汤科技、极链科技Video＋＋等。
    一百多年前，电改变了生产、交通和农业等产业，而今天，人工智能也像电一样将改变传统产业。人脸识别和图片识别是人工智能视觉与图像领域中的两大热门应用。但将人工智能技术单纯用于图片识别分析的应用企业数量并不如预想的多，可能有以下几个方面的原因：目前视频监控方面的盈利空间大，众多企业的注意力都放在了视频监控领域，人脸识别属于图片识别的一个应用场景，做人脸识别的大多数企业同时也在提供图片识别服务，但是销售效果不佳，主要赢利点还在于人脸识别等。

    识别物体是图片分类的另一个比较常见的应用，例如一个简单的手机识别模型，我们首先要给计算机定义模型，然后准备大量手机的照片去训练这个模型，让计算机能识别出来，输一张图片的时候能识别出图片是不是手机。正常情况下计算机模型能识别得比较准确，但是当我们输入了一些有遮挡、形态多变或者角度多变、光照不易的图片时，之前我们建立的模型就识别不出来了。这就是计算机视觉在应用中寻在的难点问题。机器学习的本质其实就是为了找到一个函数，让这个函数在不同领域发挥不同的作用，像语音识别领域，这个函数会把一段语音识别成一段文字。图像识别的领域，这个函数会把一个图像映射到一个分类。
    进入21世纪，计算机视觉与计算机图形学的相互影响日益加深，基于图像的绘制成为研究热点，高效求解复杂全局优化问题的算法得到发展。到现在，通过技术迭代更新和机器学习，物体的识别率也已经达到了相当高的水平。像是极链科技Video＋＋自主开发的文娱人工智能系统「VideoAI」已实现场景、物体、人脸、品牌、表情、动作、地标、视觉特征检索8大维度的数据结构化，同步生成轨迹流数据，通过复合推荐算法将元素信息升级为情景信息，直接赋能各种商业化场景。

通过SAS针对企业人工智能的调研报告可以看出，大部分企业认为人工智能还处于初期阶段，但我们也可以发现，正在部署的大量应用场景都包含AI板块。显而易见我们必须学习新的技能来配合AI的发展，未来也是属于意识到这一点并立即发展的企业。机器的每一点进步都依赖于不断模拟和接近人脑的水平，提升AI在场景应用上的工程能力，会为生活带来更多的便利。