算法之过，算谁的？

2022.11.01

    来源｜零壹财经
    作者｜沈拙言
    一位网约车用户遇到了重大烦恼。
    他甚至都不知道具体是哪一次出行订单出现了问题，滴滴平台算法认为该用户存在安全隐患，基于“对用户人身安全的考虑”，暂停了这位用户的叫车功能。
    用户通过联系滴滴客服，告知自身并没有安全方面的风险，经历了“人工申诉”环节才将自己从异常用户名单里拉了出来。
    事情并没有这样结束。正常使用滴滴出行服务数次后，用户发现自己又无法叫车，他愤懑地通过同样的渠道恢复了叫车权利。
    直到第三次相同情况的出现，用户在联系滴滴客服时想要得到一个解释：在自己正常叫车、正常支付、行驶导航规定路线的情况下，究竟是什么样的举动让系统误判为自己存在安全风险？
    关于算法的决策判定，滴滴客服自然是回答不上来的。用户在连续三次的“你认为我有安全风险，我安不安全我自己不知道吗？”的牢骚中，对平台系统的信任度降到最低，成为了人与算法之间的矛盾逐步激化的缩影。
    长期以来，为了解决这种人与算法之间的不理解、不信任，学界针对这一问题产生过激烈讨论与实践，也衍生了可解释性AI（Explainable AI，简称“XAI”）的理念。欧盟委员会甚至把提高人工智能的可解释性，认为是下一次数据浪潮的重要内容。
    遗憾的是，当前可解释性AI还处于早期阶段，并没有取得突破性进展。正如大数据领域内隐私保护和用户便利之间存在冲突，可解释性AI和高精度AI之间也存在着类似的冲突——解释的容易程度与AI系统的精度息息相关，并且很难定义双方的关联程度是正比还是反比，结构简单的AI系统未必具有可解释性，可解释性较强的AI系统，往往能够解决的问题也有限。
    无从解释便无从理解，无从理解便无从信任。可解释AI到底是不是看得见摸不着的“镜花水月”？
    如何避免 “人工智障”
    提到成功的、举世皆知的人工智能，便不得不提AlphaGo。
    AlphaGo与李世石的“人机大战”过后，业界通常认为AlphaGo采用的并非人类下棋的策略，也正是AlphaGo采用了神经网络、深度学习等技术，吸纳了海量复杂的数据，跳出了人类对于下棋的固有思路，棋局广度已非人类可想象，出招没有任何“套路”可言，故而在于人类的对决中鲜有败绩。
    假设DeepMind公司通过完全相同的培养、训练路径，再造一个全新的AlphaGo，新AlphaGo与旧版AlphaGo对决，胜负该如何预测？黑箱性依然是其中不可忽视的特点，即便再造AlphaGo，也未必是当初的AlphaGo了。
    AlphaGo具不具备可解释性？它的每一个发展路径、下棋思路、落子预兆是否能被人类所理解？目前尚未有人对决策逻辑进行解释。即便AlphaGo不具备可解释性，也因为它身处一个相对无害的围棋领域中，人类也能容忍这样的人工智能击败自身群体中最优秀的棋手。
    柯洁曾说AlphaGo就是围棋上帝，但也仅限于此。AlphaGo在围棋中可以主宰一切，从不犯错，它的案例却不能应用在更多复杂且意义重大的业务场景中。
    一些决策意义重大的场景中，人类无法容忍人工智能的无解释性。比如医生已经习惯了人工智能作为辅助手段，通过后者进行一系列数据分析，为最终的病例诊断提供依据。但当人工智能给出的答案与医生从医经验出现分歧，这种分歧往往很难有明确解决方案——若以医生为准，医生也有误诊的可能性；若以人工智能决策为准，那人工智能是怎样做出这个决断的？没有明确依据，也无法向患者交代。
    也正因为对人工智能做出决策的逻辑无法充分理解，使用方也就很难判断这样的决策是否会带来公平性上的巨大缺陷以及安全性上的重大隐患。早在1993年，学者Gerald Peterson就指出，除非人类能够说服自己完全信任这项技术，否则神经网络算法将不会被应用于关键领域，而增进信任的核心在于人类能够理解AI的内部运行原理。
    甚至，因为人工智能的数据样本掺杂人为主观因素，曾出现过重大社会矛盾问题。美国曾广泛使用的犯罪风险评估算法 COMPAS 被证明对黑人犯罪嫌疑人造成歧视，白人更多被错误地评估为具有低犯罪风险，而黑人被错误地评估为具有高犯罪风险，且黑人的概率比白人高出一倍，这一逻辑也让COMPAS算法臭名昭著。
    国内一个比较典型的案例是《外卖骑手，困在系统里》一文所引发的社会思考。外卖平台的实时智能配送系统是AI智能算法深度学习能力的产物，是平台令人称道的重大进步，却逼迫着外卖骑手与死神竞赛、与交警较劲、与红灯为友。系统根据用户下单地址，根据骑手的当前位置、顺路性、方向等因素决定哪位骑手接单，然后在数秒内规划骑手的路线与送达时间，听起来很精密，实际上一个红灯、一场大雨、一趟等不到的电梯，都能轻易击碎这些“最优解”。
    相比之下，文首滴滴案例社会影响力则不那么巨大，它没有涉及算法上的歧视，也没有损害某类群体的应有利益（最多影响到个体用户，需要专项解决），但却在人类与算法矛盾上更具代表性。使用方不知自身何种行为会被AI算法判定为安全隐患，运营方则无法解释算法依据何种数据做出决策，出现误判之后，仍需要诉诸于人工干预。
    在很多人工智能应用中，人类的监督与干预是常常被提及的重要方面，在医疗、金融、法律界，对于人工智能的应用都有严格、审慎的内部管理。而到了人工干预环节，似乎又回到了“无法解决人为决策上的完全客观”问题。
    当前业界对人工干预提出了解决办法：由于AI算法缺乏足够的可解释性，人类对AI的决策尚没有极高的信赖度，且由于机器不会自己把自己的决策逻辑说出来，相比于这样决策的不可控，由人类来决策至少有解释的空间，即使这样的决策无法做到绝对客观。
    欧盟甚至把人类监管纠错放在可信人工智能系统需要满足条件的首条。根据欧盟发布的《可信人工智能道德原则指导》，可信人工智能系统必须满足七个方面的要求：人类监管纠错、技术安全及鲁棒、隐私保护与数据治理、透明及可解释、算法公平无歧视、环保及社会影响、问责制度。
    欧盟委员会人工智能高级专家组（AI HLEG）编制的《人工智能道德准则》（AI Ethics Guidelines）也曾做出过解释：人类需要制定一个以人为中心的 AI 发展方向，时刻铭记 AI 的发展并不是为了发展其本身，最终目标应该是为人类谋福祉。因此，可信赖 AI（Trustworthy AI）将成为人类的指路明灯。
    可解释AI的Who ＆ How
    尽管多年以来，学界一直在探讨可解释性AI，但遗憾的是，至今并没有形成一个统一的认知。
    其中一点分歧在于，如果要解释，解释给谁看？会不会出现“给农夫讲火箭运行原理”的情况？
    DARPA（美国国防部高级研究计划局）认为，可解释性AI的目的是要解释给用户，让用户知道为什么AI系统会这么做，也能解释AI系统不这么做的理由。既能知道AI这么做下去会不会成功，也能预测AI系统的失败。
    《欧盟平台商户关系条例》（EU Platform to Business Regulation）就以用户为中心。该条例规定了在线平台和搜索引擎对排名算法的解释义务。在线平台和搜索引擎必须对影响平台排名的“主要参数”进行“合理描述”，解释必须以“通俗易懂”的语言说明，这种“合理描述”必须是有用的，它应该帮助企业用户改进其商品和服务的展示，解释的内容应几乎完全与用户的可理解性与实用性相联系。对于可能影响商业机密的“合理描述”，《欧盟平台商户关系条例》提及，在线平台服务和搜索引擎不需要披露其排名机制，包括算法的详细运作情况，但描述必须基于所使用的排名参数强相关的实际数据。
    另一种观点认为，即便实现了可解释性AI，也不应该把过多信息传递给应用层，用户需要的是未必精准但相对通俗的解释，而开发层需要专业精准的解释。一套AI逻辑的解释也不可能满足所有人。如果只推行精准解释一套标准，到应用层的用户也未必能完全理解，不能完全理解便导致用户对AI系统的信赖度无法提高，可解释性AI实现的意义将大打折扣。
    甚至还有观点认为，毕竟世界上存在太多无法解释的事物，AI具有可解释性是人类不切实际的梦想。鉴于不同学者和单位对可解释性的定义不同，解决问题角度不同，可解释性的研究体系结构仍不明确。人工智能深度学习、算法决策的不可预测性与机器不会说话的桎梏，导致未来对AI可解释性的研究仍会遭遇瓶颈。
    面对一个近乎“两难”的局面，各国监管机构、平台方在监管与业务开展中进行了一定的取舍。实际应用中对于可解释性AI往往采取折中的解决方案：由机器进行决策，减少人工成本，但最终由人类监督与干预，当出现算法误判，人类有拨乱反正的能力。
    这总会让人联想到大数据时代隐私保护与用户便利的冲突。李彦宏曾说过，如果牺牲一定的隐私来换取使用上的便利，大部分人都会愿意。而到可解释AI中，如果牺牲一部分对AI决策的理解来换取多项问题的解决率，造成“有些问题可以通过AI来解决却无法解释”的情况，大部分人会不会愿意？
    社会对美团配送时间的算法进行热议之后，美团将骑手配送时间算法进行了调整，由订单预计送达“时间点”变更为弹性的“时间段”。美团只公布了算法决策结果，没有对算法为何划定某某时间段做出详细解释，但由于解决了问题，关于美团算法的讨论便告一段落。这再次印证了在解决问题和解释逻辑尚不能两全的情况下，人们更愿意关注前者。
    基于现实问题的考量，我国对AI算法可解释的监管要求并没有像欧盟那样严格。3月1日施行的《互联网信息服务算法推荐管理规定》第十二条提出，鼓励算法推荐服务提供者综合运用内容去重、打散干预等策略，并优化检索、排序、选择、推送、展示等规则的透明度和可解释性，避免对用户产生不良影响，预防和减少争议纠纷。
    《互联网信息服务算法推荐管理规定》以结果为导向，展示相关规则和可解释性的根本目的是为了避免对用户的不良影响，鼓励平台服务者提高算法的可解释性，当出现算法争议时，具有解释能力。
    以上文网约车平台为例，当用户一而再、再而三出现困扰的时候，平台应当有对算法的解释能力，以规避同样问题的再次出现。但指望每一个客服都能将算法决策逻辑娓娓道来，这也不现实，如何将具备解释能力的人员对接到需要解释的用户，这仍是平台需要考虑的问题。
    但平台什么时候能有结论？可能还要五年，可能是十年，但不会是当下。我问在网约车出行中饱受算法误判苦恼的那名用户，是否会因此放弃这种出行方式？
    “直接放弃并不现实，哪怕之后再出现这样的误判，我内心会愤怒、会苦恼，但依然会不厌其烦地用同样的方式解决这样的问题，我无法因为它算法上的瑕疵而抛弃我习以为常的便利。”
    用户还能忍，平台还有时间，但时间不多了。