深度学习中存在的偏见和歧视问题,不容忽视


    当人工智能技术落地到各个行业领域,深度学习作为人工智能技术的核心也逐渐渗透至各个方面。计算机通过模拟或实现人类的学习行为,通过大量数据和算法获取新的知识或技能,最后重新组织已有的知识结构使之不断改善自身的性能。
    然而在人工智能上,一直存在“黑匣子”问题,深度网络具有高预测能力但可解释性不足的特点。在用大量数据“教导”机器学习的同时,研究者发现机器学习也会产生不可预测性的“偏见”,当一些暗含“偏见”的数据被算法永久性地编码进人工智能程序中,就可能导致未知的错误和偏差,这可能会在最终结果和决策中产生影响甚至重大的错误,从而影响未来人类与人工智能的关系。
    前段时间,谷歌废除了人工智能招聘项目,因为该人工智能系统在经过10年的简历培训后,由于男性主导的工作环境,产生了对“女性”的偏见,据报道,它对包含“妇女”一词或某些全女子学院名称的简历都进行了处罚。
    对于这种机器学习产生的“偏见”问题,类似于“俄罗斯坦克问题”。20世纪80年代,在机器学习发展的早期,美国军方试图训练一台电脑来区分俄罗斯和美国坦克的照片。其分类准确度非常高,但结果中俄罗斯坦克的所有照片都模糊不清,而美国坦克是高清晰度的。原来该算法最后不是在识别坦克,而是学习了如何区分模糊和清晰的照片。
    而造成这种偏见的原因主要有一下几点:
    一、用于机器学习算法的数据不足。算法在初始提供的数据中获得模式,然后在新的数据中识别类似的模式,然而有时算法并不会按照人们初始意愿那样工作。
    二、算法本身很糟糕。机器学习是软件开发人员利用大量与任务相关的数据训练 AI 算法的过程,如果本身算法就存在漏洞,深度学习后的结果则会更加差强人意。
    要想消除机器学习中潜在的“偏见歧视”问题,可尝试以下几种方法。
    减少原始数据的“偏见性”
    2018年5月25日,“通用数据保护条例”(GDPR)在整个欧盟范围内生效,要求对组织如何处理个人数据进行彻底改变。若违反GDPR条例的限制,相关组织必须支付高达2000万欧元或其全球收入4%的罚款(以较高者为准),对威慑大多数违规行为具有很重要的意义。
    但事实上,虽然有GDPR等法规对数据的使用加以限制,还是避免不了一些研究使用存在偏见的数据集。由于机器学习系统的行为由它学到的数据所驱动,所以它的工作方式与人们编写的标准计算机程序有很大不同。如果供算法训练的数据不能公平地覆盖所研究对象,系统便会出现偏差,甚至会放大原始数据中的偏见。
    而这个问题却不在数据本身的数学结构上,而在于深度学习系统的设计者和操作者上。要解决数据的偏见问题,就需要数据收集存储、使用的公平性和全面性。
    打开算法“黑匣子”
    一直以来,许多公司为了自身的专利保护和商业机密,会严格保密自家的人工智能算法,从未形成了决策无法解释的“黑匣子”问题。好在目前人工智能领域已意识到这个问题,正积极采取措施加快代码的开源,制定透明度标准,提高算法的可靠性,除此之外,还需提倡“程序员必须对算法得出的结论做出解释,否则就不能投入使用”原则。对此,人们也做出了相应举动,例如,美国国防部高级研究计划局资助了一项名为XAI(可解释的人工智能)的计划,旨在打开人工智能的“黑匣子”,以保证用户更好地控制人工智能程序。
    让机器自己寻找错误
    人工智能系统在学习时会犯错。事实上这是肯定的,所以称之为“学习”。电脑只会从你给出的数据中学习。但有时候,并不能消除数据偏见的来源,就像不能消除人类中的偏见来源,所以首先承认问题,然后让机器自己去发现错误。
    华盛顿大学的研究人员在2016年构建了一种称为LIME的解释技术,并在由Google构建的图像分类神经网络Inception Network上进行了测试。
    LIME在做出图像分类决策时,不会考虑触发神经网络中的哪个神经元,而是在图像本身中搜索解释。它会将原始图像的不同部分变黑,并通过Inception将产生的“扰动”图像反馈回来,以检查哪些扰动导致结果偏离算法最远。通过解释机器学习模式中的错误,可以改进技术来消除人的偏见。
    深度学习的“偏见歧视”问题正潜移默化地影响着算法结果,研究者们需要时刻关注,反复检测算法结果与预期的偏差,任何一点差距都有可能通过蝴蝶效应,最后发展成一个重要的错误。在人工智能崛起的时代,当人们越来越关注人工智能与人类社会的关系时,这将是一个始终备受关注的敏感点。