用算法听懂你:“声音风险评估”是伪科学还是真本事?


    编者注:本文作者Ava Kofman是一名专栏作家。本文中,作者根据AC Global Risk公司开发的一种基于声音的风险评估系统展开讨论,从这一系统本身出发并结合行业内情形进行客观论述。
    试想,是否有这样的可能:仅通过观察人们的脸或听他们的声音来判断某人是否是罪犯?这个想法可能看似荒谬,就像科幻小说《1984》中的老大哥(Big Brother)察觉到某些“带有异常暗示”的无意识表情。然而,近期一些公司开始直面这个问题:答案不是可能,而是肯定。一家成立于2016年的初创企业AC Global Risk,声称能够确定一个人作为员工或寻求庇护者的风险水平,依据不是这个人说了什么,而是怎么说。
    这家位于加利福尼亚州的企业提供一种自动筛选系统,称为RRA(Remote Risk Assessment,远程风险评估)。该系统的工作原理是:AC Global Risk在客户的帮助下形成一些自动化的、是或否的面试问题。选定进行筛选的人群随后将在10分钟的面谈中用自己的母语回答这些简单的问题,该过程可在电话上进行。然后RRA通过测量他们的声音特征产生评估报告,该报告将以从低风险到高风险的频谱形式对每个人进行评分。AC Global Risk首席执行官Alex Martin表示,作为该公司的专利,该风险分析将“永远改变人类风险的衡量标准”。
    AC Global Risk则表示,其咨询委员会成员包括罗伯特·盖茨(Robert Gates)、康多莉扎·赖斯(Condoleezza Rice)和斯蒂芬·哈德利(Stephen Hadley)的咨询公司,并与美国驻阿富汗特种作战司令部、乌干达野生动物管理局以及Palantir、苹果、Facebook、谷歌等安全团队签订了合同。Martin表示,风险筛选在这些市场和其他市场的广泛使用,证明其“准确性高、可扩展、具有成本效益,并且具有高吞吐量。”AC Global Risk还声称其RRA系统可以对上百个处于世界各地的人同时进行操作。针对当前美国总统特朗普要求对移民进行“极端审查”的呼吁,该公司已经将自己视为美国和其他国家目前正经历的巨大难民危机的“杀手锏”。
    这项建议似乎引起了美国国土安全局(DHS)的兴趣。国土安全局已经对研究开发类似的边境人工智能技术提供了资助。自动实时真相评估虚拟系统(AVATAR)测谎仪,使用人工智能来评估旅客的声音、姿势和面部表情的变化,从而标记那些有意欺骗或可能构成潜在风险的旅客。2012年,该技术在美国与墨西哥的边境对志愿者进行了测试。欧盟也对这项可以减少由人为因素产生的工作量和主观错误的技术提供了资助。
    语音分析、算法歧视和机器学习方面的一些领先专家发现,数字测谎仪测试的趋势令人不安,并且指出AC Global Risk等公司的方法存在谬误。普林斯顿大学心理学家Alex Todorov解释道:“语音的动态变化会产生一些信息,这些公司正在对这些信息进行检测,这非常合理。但问题是,在检测他们认为有风险的人时,这些信息的可信度有多高?因为这些信息一般来说都是模棱两可的。”Alex Todorov的研究方向是社会感知和第一印象科学。
    过去的一年里,美国公民自由联盟和其他有关组织表示,边境巡逻人员一直根据外表或口音在灰狗巴士(Greyhound)上逮捕一些人。由于海关和边境保护局已经采用某人说话方式或长相的信息作为依据,在160千米的边境地区进行搜查,或者拒绝某人入境。专家们担心基于声音情绪的检测软件会使这种歧视成为一种常规、普遍甚至看似“客观”的现象。
    AC Global Risk拒绝回复本文的多次置评请求,也没有对该技术详细运作方式的问题作出回应。然而,在公开场合,Martin声称其公司的专有分析流程可以确定某人的风险等级,准确率超过97%。(而AVATAR则表示其准确率在60%到70%之间。)几位业内领先的视听专家在审阅了AC Global Risk公开发布的文件后,使用“废话”或“虚假”一词来描述该公司的主张。奥格斯堡大学教授Bj?rn Schuller表示:“从道德的角度来看,只通过声音测谎会让人们觉得非常可疑和阴暗,任何一家宣称自己能做到这一点的公司可能都是一颗‘定时炸弹’。”Bj?rn Schuller领导了该领域的主要研究,致力于提高声音情绪检测的最新技术水平。
    高风险业务
    去年夏天有报道称,特朗普的极端审查计划(Extreme Vetting Initiative)要求软件能够自动确定和评估签证申请者成为社会积极成员的可能性,并预测申请者是否打算在进入美国后实施犯罪或恐怖行为。AC Global Risk将自己标榜为实施这一举措的完美工具,声称可以评估忠诚度不明人员的风险等级,例如难民和签证申请者。随后,国土安全局将决定如何根据这些报告的结果采取行动。“我们将风险等级分为低水平、平均水平、潜在水平和高水平,根据这四个风险等级建立部门协议并不难。”该公司在其博客上表示。
    风险评估本身并不是什么新鲜事。近年来,在刑事司法程序的各个阶段几乎都引入了算法,从警务、保释到量刑、假释。这种技术的出现并非无可非议。许多这类自动化工具都因其不透明性、保密性和偏见遭到批判。在大多数情况下,办公人员、法院和公众没有能力或根本不允许质疑这些工具的基本假设、训练或结论。而持怀疑态度的专家关注的主要问题是,机器学习的客观光环可能为歧视提供一个道貌岸然的借口。
    对于其技术原理,AC Global Risk提供的细节寥寥无几。该公司没有发表支持其研究主张的白皮书,也没有公布其研究人员的科学谱系。除此之外,该公司甚至没有回答关于其产品特征(比如音高、速度、拐点)的问题。犹他州大学一位主攻算法公平性的计算机科学家Suresh Venkatasubramanian认为:“尽管在刑事司法环境中使用风险评估存在一定的问题,但比这家公司的工具准确得多。”
    如果AC Global Risk对其技术的任何一项声明得到证实,都将成为人类声音研究的前沿,因为研究人员认为声音具有确定某些信息的可能性。例如,声音评估可以出色地识别人口统计信息。这类信息可能很常规,例如某人的年龄、性别或方言,也可能非常个性化,比如判断某人来自哪个地区,以及他们任何潜在的健康问题。
    上个月,亚马逊获得了一项专利,允许其虚拟助手Alexa确定用户的声音特征,包括语言、口音、性别和年龄等。然而,在从声音确定情绪的过程中,准确性仍然是一个重大问题。声音分析公司audEERING的联合创始人Schuller表示,目前通过声音判断某人是否在说谎的准确率不高于70%(如果说谎是该公司的风险评估指标之一),这与人类判断的平均概率基本相同。
    Schuller还表示,通过声音有可能判断某人是否陶醉、真诚或欺骗,但同样,其准确率与人类判断相似。他说:“有时在具备可靠标签的基础上,工具的准确性可能更高,但如果有人宣称零误差,最好还是保留态度。”
    评估AC Global Risk的主张是否有效的关键是,什么是风险,以及谁来定义这一概念。主攻生物识别技术的澳大利亚学者Joseph Pugliese表示:“他们把风险定义为一种不言自明的、看似普遍的品质,并且假设人们已经知道什么是风险,而当然,定义风险参数的主体和风险参数的构成应该是一个政治问题。”
    AC Global Risk首席执行官Alex Martin曾谈到“寻找每个人都存在的连续统一体的实际风险。”而普林斯顿大学的心理学家Todorov则解释,风险是一种天生的、可识别的人类特征,而且这种特性可以从声音中确定,这种观点依赖于有缺陷的假设。他补充道,我们检测人们实际感受的方式与我们感知他们感受的方式的能力,一直是机器学习领域一个众所周知的难题。评估设置可能会使错误印象的可能性进一步复杂化。Pugliese说:“边境地区的人们已经处于高压和高度情绪化的环境中,又怎么可能用我们所谓的正常情绪标准来衡量?”
    新的人相学?
    越来越多公司对其行为分析软件的能力要求过高,AC Global Risk只是其中之一。受人工智能观察能力的鼓舞,许多生物识别供应商和人工智能公司一直在向企业和政府提供这样的服务:采集面部表情、动作和声音信息,从而判断一个人的人格。例如,2014年俄罗斯冬季奥运会期间,一家生物识别供应商通过扫描与会者的表情,使该国的安全机构FSB能够找出那些看似不起眼,但实际精神状态过激且存在潜在威胁的人。
    一些研究人工智能和人类行为的专家对这类工具持怀疑态度,他们将这些工具框定为人们对人相学(physiognomy)兴趣日益返潮的一部分。人相学是一种通过观察一个人的 身体来寻找道德品质和犯罪意图迹象的行为。在19世纪中期,塞萨尔·隆布罗索(Cesare Lombroso)对“天生罪犯”的头骨和面部特征的精确测量,为这种“纸上谈兵”披上了科学的外衣。然而,尽管像隆布罗索这样的犯罪学家的成果被扔进了“伪科学”的垃圾箱,但是从身体特征和行为中推断某人的道德品质或隐藏思想的欲望仍旧持续不断。
    Pugliese认为,AC Global Risk和同类公司的努力都基于一个假设——大数据的相关性可以规避科学方法。他解释说,这些“人相”应用尤其令人不安,因为机器学习算法设计的初衷就是为了在他们给出的数据中找到表面模式(无论这些模式是否真实)。Pugliese表示:“当这些公司声称正在进行风险等级分类时,不言而喻,他们已经对构成‘犯罪意图’的迹象有了客观的认识。但我们并不知道什么实际迹象会这些犯罪预测指标。”
    然而,揭露这种技术的伪科学前提并不一定会降低企业和政府使用这项技术的可能性。与许多其他预测性和基于风险的系统相同,这些技术的能力主要依赖于它们对效力和速度的承诺。Venkatasubramanian解释说:“他们主要的主张是提高效率,从这个意义上讲,这种技术的确会起作用。”换句话说,这种效率是否对这种系统受众的生命机会有益或有害,他们漠不关心。远程风险评估由于人类的接纳将得到广泛应用。正如Todorov与另外两位机器学习专家在表达他们对这一大趋势的担忧时所写:“无论是否有意,通过计算机算法为人类的歧视‘洗白’,确实有可能使这些偏见看起来更客观合理。”