实现AGI道路上,数据科学家防不胜防的9大陷阱


    最近几个月,科技研发的速度也越来越快。微软宣布将投资10亿美元,与科研实验室OpenAI联手打造通用人工智能(AGI),也就是人工智能的最高目标。OpenAI的首席执行官Sam Altman表示,AGI将成为人类历史上最重要的技术。
    对于某些特定的任务,计算机能做得比人类好很多。但他们不具备智慧、常识和批判性思维,因此它们无法像人类那样去应对一些特殊情况(比如一些未定义的情形、模糊的规则、模棱两可甚至自相矛盾的要求)。随着技术的发展,计算机也许能做到人类大脑能够完成的任何事情,但之前微软的表现并不让人满意。
    2016年,微软发布了聊天机器人Tay,这家公司称“它能与人类在线交流,语言随和风趣”。Tay的编程语言让它表现得像一位千禧一代的女性,在学习训练过程中,它就是在模仿千禧一代的讲话方式。微软表示,“你和Tay聊得越久,那么它就会越聪明。”在不到一天的时间里,Tay发送了9.6万条推特,拥有超过5万名关注者。但这个问题最终出在Tay自己身上,它讲的内容越来越令人厌恶。“元首是对的,我讨厌犹太人。”“911事件是有内幕的。”“我非常讨厌那些女权主义者。”Tay非常善于利用它接收到的词汇和词组,但它无法根据语境来说话,也不理解自己发送的推特到底是什么意思。因此微软在16个小时后就关闭了Tay,但不到一周,它又重新上线。后来微软称第二次上线是个意外,并再次关闭了Tay。
    AGI也许是一个美好的梦想,而数据科学让我们有机会去利用大数据和强大的计算机,作出基于现实而非空想或偏见的决策。但不幸的是,在数据大规模出现之后,企业和政府仍然在重复之前犯过的一些错误,而且重复的速度更快。将重要的决策交给机器,只是实现了“犯错的自动化”。
    数据科学不仅仅是数学证明、统计计算和计算机编程。真实的人类智能也必不可少:比如实验设计、智慧、常识、怀疑和批判思维等。数据科学家并不是要成为一台机器,不断地尝试新模式,不断地进行曲线拟合;他们更应该成为一位科学家。
    如果数据科学家想要充分挖掘数据科学的潜力,他们应该避免以下九种常见的错误。
    1.使用劣质的数据
    第一代机械计算机的投资者Charles Babbage曾被国会成员两次提问:“Babbage先生,如果我们给计算机输入错误的数据,那么它会得到正确的答案吗?”显然优质的数据必不可少,而非可有可无。
    芝加哥医院对一批脓毒症患者进行过一次研究,它发现,血液pH值较低的患者在出院后,重新回医院治疗的可能性更低。两者的相关系数达到了0.96。但是这些数据还包含了一些在住院期间死去的患者,也就是说这些患者通过太平间离开了医院,是绝对不可能回来重新治疗的。最后将这些死者的数据去掉,就会发现血液pH值较低的患者反而是更加危险的。
    2.将数据的地位放在理论之上
    一些数据科学家在没有理论和常识的指导下,为了模型搜索大量数据。他们认为对于一个问题的定向思维会影响新的发现。然而不幸的是,大多数时候泛滥的数据都是没什么意义的。大数据领域的一个悖论就是,我们为一个模型输入的数据越多,最后发现它无用或错误的可能性越大。
    一位互联网营销人员在大约100个国家测试过三种可选的登录页面颜色(黄色、红色和蓝绿色)与它传统的蓝色之间的对比,从理论上讲,他应该会发现某些国家采用特定的颜色,会带来更高的收入。比如他认为英格兰更喜欢蓝绿色,但实际上并不是。
    3.盲目崇拜数学
    数学家热爱数学,非数学专业的人惧怕数学。这两者的组合可能会催生大量不切实际的模型。
    在经济大萧条时期,由于假定违约事件的发生是独立分布的,许多按揭贷款违约的数学模型都失效了。这些人低估了极端事件的可能性,同时也没有考虑在经济大萧条的背景下,无法按期偿还贷款的可能性本身就更高。
    4.盲目崇拜计算机
    常常有人认为,计算机做某些事情做得很好,所以它们一定有非常高的智能,但要知道适用于特定任务和普遍适用多项任务之间还有很大的差别(甚至这些任务还可能完全不一样)。我们对计算机的依赖并非百利而无一害。如果认为计算机比我们更聪明,从而将所有决策交给计算机,可能会带来灾难性的后果。
    5.反复捣腾数据
    为了寻找数据之间的隐藏关系,有些人会把数据按照多种方式进行分类。诺贝尔经济学奖得主罗纳德·科斯就说过:“如果你不停地操作一些数据,机器自己都会糊涂。”但大数据和强大的计算机却助长了这种行为。
    一位著名研究员曾在他的助手分析数据时,告诉后者“尽可能多地从数据中榨取信息”。当时他的助手试图通过机器视觉将一间意大利自助餐厅的客人分为“男性、女性、吃中饭的、吃晚饭的、单独吃饭的、两人吃饭的、两人以上一起吃饭的、点了酒精饮料的、点了软饮料的”等。最后这些“榨取的信息”变成了四篇“披萨论文”,其中最著名的一篇称“男性在女性一起吃饭时,会多吃93%的披萨”。如今他的十几篇论文都被退回,人也被大学辞退。
    6.自我欺骗
    诺贝尔物理学奖得主理查德·费曼曾向科学家们提出过一条建议:“首要原则就是不要欺骗你自己——因为你自己是最容易被糊弄的。”真正的科学家是分享自己的理论、质疑自己的假设,然后寻找机会做实验来验证或推翻假设。而摆弄数据的人只会看到自己想看的东西。
    曾有一份研究要求一所高校的学生预测自己的数学测验成绩。结果预测的平均分数比实际分数要高,但两组数据之间的相关系数高达0.70。因此作者得出两条结论。第一,这些学生高估了自己的能力。第二,为提高学生的自信心,打分可以适当高一些。对于第一条,可能是学生低估了测验的难度。对于第二条,较高的相关系数表明学生其实对自己的数学水平很有信心,少数认为自己考不好的,也只是不太熟悉材料。他们并不是太过于悲观,而是非常现实。
    7.把相关性当作诱因
    不论被告知多少遍“存在相关性并不一定是诱因”,但研究人员总是会不自觉地忽略这条重要的建议。
    2011年,谷歌创建了一个人工智能项目Google Flu,它用搜索请求来预测流感的爆发。当时他们夸下海口:“我们能精准地预测出美国各个地区未来一周的传染状况,每天更新一次。”他们称模型的精准度已经达到97.5%,也就是模型预测结果和实际流感案例的相关系数已达到0.975。谷歌是怎么做到的呢?它的数据挖掘项目浏览了5000万条搜索请求,并确定了其中45条请求最有可能和流感相关。由于流感的爆发具有高度的季节性,Google Flue更像是一个季节检测器,它会挑选季候性的搜索词汇(如圣诞节、寒假和情人节等)。当离开了历史数据,开始真刀真枪地预测时,Google Flu的准确率就大大地下降。在发布报告后,Google Flu误报了未来108周内的100起流感案例。从此,Google Flu再也不去预测流感了。
    8.不要对平均值的回归过于惊讶
    当数据波动时,预测值可能会高于检测值,但随后就会继续趋于平均值。比如一位高尔夫选手赢了大师锦标赛冠军,不代表下一次他也能赢。并不是说他下次会倒霉,或者技术会退步,也许这次胜利本来就是超水平发挥。
    数据也会在未来回归平均值,这有点类似于防止一次“发挥失常或超常发挥”。例如一家数据科学公司做过一个实验,它将一位客户的网页布局和100多万域名中20个常用的布局进行比较。客户们经常会抱怨自己的网站表现不佳,认为网站本来还能赚更多的广告营收。因此它给一位数据分析师一系列网站域名,这些网站在过去三个月的营收都在下降,分析师可以根据它来调整网页布局,看看能否提高营收。结果他成功了,第二天的营收数额上涨了20%,当时他就仿佛一位万众瞩目的摇滚歌手。但直到某一天他太忙了,来不及做任何改变,营收就开始下降。所以这些网站仍然属于那些表现不佳的一类,他们的营收最终会回归平均值。
    9.不要伤害用户
    不幸的是,在大数据时代,企业和政府为了预测和影响我们的行为,都在时时刻刻搜集我们的数据。优秀的数据科学家会很谨慎地处理这个过程,充分尊重我们的权利和隐私。数据科学的黄金法则:对待别人就像对待你自己那样。
    一家互联网约会网站做过三个实验。实验一,他们暂时移除了网站上所有的照片,结果发现很少有人愿意主动发信息,这证明了爱情不是“盲目”的。实验二,他们随机隐藏了人们的部分简介,结果发现对用户的评价没有太大影响,这证明了爱情是“不会仔细阅读”的。实验三,他们对调了匹配程度评级,例如将最匹配的人贴上“最不匹配”的标签,反之亦然。第一和第二个实验对用户没有太大的伤害,但第三个就有问题了。因为用户不希望自己的生活被不合适的人打扰。约会时遇到一个错误的对象还只是痛苦一时,错过一个合适的对象可能会影响一生。
    要避免这些陷阱,必须时刻留意。为了将数据融入科学,我们更应该表现得像一位科学家,而非一台机器。