人脸识别应用日益广泛，技术公平性和准确性如何保证？

2024.04.11

    由于深度学习的普及，近年来机器学习研究蒸蒸日上，人脸识别技术也得到了极大的改善。在一个典型的用例中，照片、视频或实时流媒体中的人脸会被扫描、分析，接着，它们的特征会被拿来与数据库中注释过的人脸进行比较。
    这项技术正被用于打击人口贩运和机场快速安检，同时它也被用于监视音乐会、体育赛事。
    然而，面部识别的准确性仍是一个问题。研究人员开始担心人工智能系统中存在的歧视和偏见。该技术在正确识别有色人种和女性等方面还存在着重大缺陷。造成这一问题的原因之一，是数据集里男性相对于女性、白人相对有色人种的悬殊比例。
    对机器训练来说，数据多样性很重要，但数据的体量大小也同样重要。人脸识别系统的训练和测试需要在数百万甚至数千万张人脸上进行。
    多年来，研究人员一直通过人脸识别数据集来进行相关研究。这个包含图片链接的数据集都是从一个资源包中整理生成。该资源包被用于各种各样的科学项目研究，包括在不使用地理坐标的情况下估算照片和视频的拍摄地点的研究。
    IBM开发了一个名为“人脸多样性”的新项目，并为其准备了上百万张图片，该项目将进一步提升人脸识别的公平性和准确性。
    研究人员们通过互联网收集并注释了各类物体的照片，以此来训练电脑，让其可以更好地了解它们周围的世界。
    通常，他们通过谷歌图片搜索和一些其他的途径获取数量巨大的图片。得到的数据集通常被用于学术研究，比如训练或测试人脸识别算法。但随着微软、亚马逊、脸书和谷歌等公司押宝人工智能，人脸识别正走出实验室，进入大型企业的视野中。
    随着消费者意识到他们在互联网上留下的数据能够产生的巨大威力，人脸识别数据集正在加剧人们对隐私和监控的担心。因此，一些研究人员正在重新审视这种野蛮收集他人照片的行径。在充满分享精神的互联网中，使用他人照片本应征求别人同意。
    许多公司、研究机构和个人都为面部识别编制了数据集，IBM只是其中之一。其中一些数据集由实际的图像组成，还有一些类似IBM的数据集，是由图像链接组成的。有时，数据集也是可以通过拍摄模特得到的。
    通常情况下，这些数据集是知识共享的，但它们必须用于非商业目的，比如算法研究。但大量的类似数据集可以从网站免费下载。
    知识共享协议于2002年首次发布，远远早于当前的人工智能热潮。
    尽管研究人员在网站上免费使用图片，但他们也承认，许多上传这些照片的人可能会对照片被用于训练人工智能的事实感到惊讶。
    一些研究人员认为，人们应该通过授权，自己决定图片是否可以用于计算机视觉或人工智能研究。
    对此，知识共享协议并不能帮上大忙。只要遵循相关的条款，这个来自非营利组织的许可协议并不限制任何形式的人工智能开发。
    知识共享组织首席执行官称：“这些协议并不是为了保护隐私或研究伦理而设计的。”
    近年来，人工智能发展之快，以至于相关法规几乎还没有来得及制定，更不用说实施了。法律上，在收集和使用图像进行面部识别时，公司并没有告知义务。
    目前还没有相关的联邦法规出台。在各州，情况则有所不同：例如，伊利诺斯州有一项法律，要求公司在收集生物特征信息之前必须得到客户的同意；亚马逊和微软总部所在地华盛顿州的州参议院最近通过了一项限制面部识别使用的法案，该法案仍需在该州众议院获得通过。
    今年3月，参议院提出了一项法案，要求企业在收集和共享识别数据之前必须征得消费者的同意。它还要求公司进行外部测试，以确保算法在实施前是公平的。
    数字版权组织电子前沿基金会技术政策主管则表示，即使没有严格的法律限制私人照片用于人工智能训练，企业和研究团体也应该注意遵守道德规范。
    在他看来，这意味着使用照片就要得到照片中人物的明确同意。即便这很难做到，它也是企业必须面对的现实。