机器学习的崛起：从无人驾驶到AI医疗，人们已进入深度学习的新世界

2024.05.29

    不久之前，人们还常说，计算机视觉的辨别能力尚不如一岁大的孩子。如今看来，这句话要改写了。计算机不仅能和大多数成年人一样识别图片中的物体，在马路上驾驶汽车的安全性还高过16 岁的青少年。更神奇的是，如今的计算机不再是被动按照指令识别和驾驶，而是像自然界的生命由数百万年前开始进化那样，自主地从经验中学习。是数据的井喷促成了这一技术进步。如果说数据是新时代的石油，那么学习算法就是从中提取信息的炼油厂；信息积累成知识；知识深化成理解；理解演变为智慧。欢迎来到深度学习的新世界。
    深度学习是机器学习的一个分支，它根植于数学、计算机科学和神经科学。深度网络从数据中学习，就像婴儿了解周围世界那样，从睁开眼睛开始，慢慢获得驾驭新环境所需的技能。深度学习的起源可以追溯到20 世纪50 年代人工智能的诞生。关于如何构建人工智能。
    当时存在两种不同的观点：一种观点主张基于逻辑和计算机程序，曾主宰人工智能的研究和应用数十年；另一种观点则主张直接从数据中学习，经历了更长时间的摸索才逐渐成熟。
    20 世纪，计算机技术还不够成熟，而且按照现在的标准，数据存储成本十分高昂，用逻辑程序来解决问题更加高效。熟练的程序员需要为每个不同的问题编写不同的程序，问题越大，相应的程序也就越复杂。如今，计算机能力日趋强大，数据资源也变得庞大且丰富，使用学习算法解决问题比以前更快、更准确，也更高效。此外，同样的学习算法还能用来解决许多不同的难题，这远比为每个问题编写不同的程序更加节省人力。
    汽车新生态：无人驾驶将全面走入人们生活
    在2005 年美国国防部高级研究计划局（以下简称DARPA）举办的自动驾驶挑战赛中，一辆由斯坦福大学塞巴斯蒂安·特隆（Sebastian Thrun）实验室开发的自动驾驶汽车Stanley最终赢得了200万美元现金大奖。团队利用了机器学习技术教它如何自主地在加利福尼亚州的沙漠中穿行。132 英里的赛道中有若干狭窄的隧道和急转弯，还包括啤酒瓶道（Beer Bottle Pass），这是一段蜿蜒曲折的山路，两侧分别是碎石遍布的陡坡和断壁。特隆并没有遵循传统的AI 方法，即通过编写计算机程序来应付各种偶发事件，而是在沙漠中驾驶Stanley，让汽车根据视觉和距离传感器的感应输入，学习如何像人一样驾驶。
    特隆后来参与创立了高科技项目重点实验室Google X，并开始了进一步研究自动驾驶汽车技术的计划。谷歌的自动驾驶汽车自此开始，在旧金山湾区累积了350 万英里的车程。优步（Uber）已经在匹兹堡投放了一批自动驾驶汽车。苹果也步入自动驾驶领域，以扩大其操作系统控制的产品范围，并希望能够再现它在手机市场上的辉煌。汽车制造商们亲眼看见一个100 年来从未改变的行业在他们眼前发生了转型，也开始奋起直追。通用汽车公司以10 亿美元的价格并购了开发无人驾驶技术的硅谷创业公司Cruise Automation，并在2017 年投入了额外的6 亿美元用于研发。2017年，英特尔以153 亿美元的价格收购了Mobileye，它是一家专门为自动驾驶汽车研发传感器和计算机视觉的公司。在价值数万亿美元的交通运输领域，参与的各方都下了极高的赌注。
    自动驾驶汽车不久将扰乱数百万卡车司机和出租车司机的生计。最终，如果一辆自动驾驶汽车能够在一分钟内出现，将你安全带到目的地且无须停车，在城市拥有汽车就显得不那么必要了。今天，汽车行驶时间平均仅占4％，这意味着它其余96％的时间都需要停放在某个地方。由于自动驾驶汽车可以在城市外围维修和停放，城市中被大量停车场占用的空间得以被重新高效利用。城市规划者已经开始考虑让停车场变成公园了。街边的停车道可以成为真正的自行车道。其他汽车相关行业也将受到影响，包括汽车保险业和修理厂。超速和停车罚单将不复存在。由醉驾和疲劳驾驶导致的交通事故死亡人数也会相应减少。通勤浪费的时间也将被节省下来做其他事情。根据2014年的美国人口普查数据，1．39 亿上班族人均单日通勤时间达到了52分钟，全年总计296 亿小时。这惊人的340 万年的时间本可以在人生中得到更好的利用。自动驾驶汽车会使公路通行能力翻两番。而且，一旦大规模投入使用，没有方向盘、可以自己开回家的自动驾驶汽车还会让大规模汽车盗窃行为销声匿迹。虽然目前自动驾驶汽车仍面临很多监管和法律层面的障碍，但这一技术一旦开始普及，我们就将迎来一个崭新的世界。可以预见的是，卡车大概会在10 年内率先实现自动驾驶，出租车要花上15 年，而15 到25 年后，客运无人车将全面走入人们的生活。
    汽车在人类社会中的标志性地位将以我们无法想象的方式发生变化，一种新的汽车生态也将应运而生。正如100 多年前汽车的出现创造了许多新的行业和就业机会，围绕着自动驾驶汽车的发展，也出现了一个快速增长的生态系统。从谷歌独立出来的自动驾驶公司Waymo，8年来已经投入了10亿美元，并在加州中部山谷搭建了一个秘密测试场所。该场所位于一个占地91 英亩的仿造小镇，其中还设计了骑自行车的“演员”和假的汽车事故。其目的是扩大训练数据集以包含特殊和不常见的情况（也叫边缘情况）。公路上罕见的驾驶事件经常会导致事故。自动驾驶汽车的不同之处就在于，当一辆汽车遇到罕见事件时，相应的学习体验会被传递给所有其他自动驾驶汽车，这是一种集体智能。其他自动驾驶汽车公司也在建造许多类似的测试设施。这些举措创造了以前并不存在的新工作机会，以及用于汽车导航的传感器和激光器的新供应链。
    自然语言翻译：从语言到句子的飞跃
    如今，谷歌在超过100 种服务中使用了深度学习，包括街景视图（Street View）、收件箱智能回复（Inbox Smart Reply）和语音搜索。几年前，谷歌的工程师意识到他们需要将这些计算密集型应用扩展到云端。他们开始着手设计一种用于深度学习的专用芯片，并巧妙地设计了可以插入数据中心机架中的硬盘插槽的电路板。谷歌的张量处理单元（TPU）现在已配置在遍布全球的服务器上，让深度学习应用程序的性能得到了大幅改进。
    深度学习快速改变格局的一个例子是它对语言翻译的影响。语言翻译是人工智能的一只圣杯，因为它依赖于理解句子的能力。谷歌最近推出了基于深度学习的最新版谷歌翻译（Google Translate），代表了自然语言翻译质量的重大飞跃。几乎一夜之间，语言翻译就从零散杂乱的拼凑短语，升级到了语意完整的句子。之前的计算机方法搜索的是可以被一并翻译的词汇组合，但深度学习会在整个句子中寻找词汇之间的依赖关系。
    下一步工作是训练更大规模的深度学习网络，针对段落来提高句子间的连贯性。文字背后都有悠久的文化历史。俄裔作家和英文小说家，《洛丽塔》一书的作者弗拉基米尔·纳博科夫（Vladimir Nabokov）曾经得出结论，在不同语言之间翻译诗歌是不可能的。他将亚历山大·普希金（Aleksandr Pushkin）的诗体小说《叶甫盖尼·奥涅金》（Eugene Onegin）直译成了英文，并对这些诗文的文化背景做了解释性脚注，以此论证他的观点。或许谷歌翻译终有一天能够通过整合莎士比亚的所有诗歌来翻译他的作品。


    1  2  下一页>