自动驾驶技术遭遇五大质疑，特斯拉如何解释？

2024.07.29

    特斯拉将于本月22日举行一次自动驾驶投资者日活动，希望它能够在这次活动上提供一些自己在自动驾驶研发工作方面的细节；
    完全自动驾驶的实现具有巨大的财务影响，这使得某些技术问题变得尤为重要；
    对于投资者而言，当前的关键问题是，特斯拉是否能够利用它在现实物理世界中训练大规模数据的优势实现比竞争对手更好的自动驾驶。
    近日，特斯拉发布公告称，将于本月22日举行自动驾驶投资者日，以下是其公告内容：
    “未来几周和几个月内特斯拉将要出现一系列令人兴奋的进展，我们迫不及待地想跟您分享这些成果。特斯拉将在位于帕洛阿尔托的总部举行投资者日，届时，我们将会帮助大家深入了解本公司的自动驾驶技术和路线图。
    我们给投资者提供了试驾环节，投资者可以亲身体验我们最新的自动驾驶软件，包括一些目前正在积极开发中的特性和功能。同时，埃隆马斯克、工程副总裁Stuart Bowers、硬件工程副总裁Pete Bannon和人工智能高级主管Andrej Karpathy都将莅临现场并发言。”
    以下是我希望投资者们在自动驾驶投资者日上向特斯拉提出的五个问题：
    1、很明显特斯拉正在使用深度监督学习来执行计算机视觉任务。但是对于实际的驾驶任务－路线规划和驾驶策略（使用特斯拉自己给出的术语），特斯拉使用的是模仿学习还是强化学习，还是两者兼而有之？在模仿学习中，神经网络通过观察人类驾驶行为，并通过将感知信息和驾驶员行为产生关联来学习驾驶，在强化学习中，则是通过反复试验（通常是进行模拟）进行学习。
    2、无论特斯拉在驾驶任务（和计算机视觉任务相对）上使用的是哪种方案，在谷歌Waymo这样的公司还在苦苦的挣扎之中的时候，特斯拉为什么认为自己选择的方案有效呢？为什么特斯拉在实施这种方案时具有自己独特的优势？比方说，如果特斯拉选择了模拟学习方案，那么，它之所以具有独特优势是因为它所售出的汽车数量相对比较庞大，那么我们希望特斯拉能给我们提供一个证明，证明为什么模仿学习会起作用。以及为什么单独地只在模拟中进行纯粹的强化学习的方案走不通。
    3、特斯拉在解决必要的计算机视觉任务上完成到什么程度了？特斯拉如何设定一个标准，来衡量这个任务完成了？是不是剩下的工作只是在训练集中添加更多的标记数据了？
    4、特斯拉的传感器套件在获取周围物体的深度信息方面的精确度到底如何？激光雷达有时会吹嘘在深度绘图上的优势，和激光雷达相比，特斯拉的传感器套件优势和劣势在哪里？
    5、特斯拉是否发现了端到端学习方面的潜力？还是目前还远远没有走到端到端学习的实用阶段？如何将端到端学习和无监督的表示学习结合在一起？在端到端学习中，通过模仿学习或者强化学习来训练神经网络，基于原始传感器的输入产生动作，无需要在这个过程的任何阶段使用人类标记。在无监督学习中，神经网络从过去的数据中学习预测未来的数据，无需任何人工标签。
    目前，我们几乎对特斯拉的技术战略一无所知。我们当然可以根据现在已经掌握的一些证据来推测它的技术战略，但是我们并不确定特斯拉在幕后到底在做什么事情。特斯拉这次有可能只是举办一次普通的自动驾驶投资者日，对上面我所列出的技术问题遮遮掩掩讳莫如深，但是我更希望的是，它能够利用这次活动开诚布公地向投资者详细解释特斯拉现在正在做什么，并且谈论一下为什么它所执行的技术战略是正确的选择。
    根据ARK Invest发布的财务模型，如果特斯拉能够在未来五年内推出完全自主驾驶的汽车，它的股价就会在当前的基础上增加大约8到14倍。尽管不同的分析公司对特斯拉有不同的财务预测模型，但是很多公司都认为自动驾驶的潜在长期价值大大超过了特斯拉目前的市值。如果有公司可以成功部署完全自动驾驶技术，那么蒙着眼投资它就是一个再简单粗暴不过的逻辑了
    但是现在的问题是，从技术可行性上来看，是否可以实现完全自动驾驶，如果可以，是哪家公司实现它。这就是投资者为什么需要理解特斯拉的自动驾驶技术战略的重要原因所在。
    现在，特斯拉的投资者面临的关键问题就是，如何从以上五个问题的答案得到一个结论，即特斯拉能否真正利用它已经售出的45万辆汽车的庞大训练数据来实现比其它公司更为出色的自动驾驶性能。让特斯拉变得与众不同的是它那庞大的训练数据。但是，只有在胜出的技术方案需要大量的训练数据，而且这些数据不需要昂贵且缓慢的人类标签的瓶颈的时候，这种资源才能够决定特斯拉的竞争优势。模仿学习和端到端学习就是这样的技术方案。与之相对的方案则是使用手工编码的规则来告诉自动驾驶汽车应该做什么，这种方案使用不到任何实车驾驶中的训练数据。还有一种相对的方案就是纯粹的强化学习，它使用计算机在模拟世界中生成训练数据，而不是使用来自真实世界的数据。
    因此，特斯拉有没有强大的竞争力取决于它那些庞大的来自现实世界的训练数据是否是最终胜出方案的决定性资源。特斯拉那些来自真实世界的数据是否是决定性的资源又取决于胜出的正确方案是数据密集型的（就像模仿学习或者端到端学习那样），还是数据无关紧要的（就像手工编码或者模拟世界中的纯粹强化学习）。
    换句话说，特斯拉的竞争力实际上取决于两个方面。第一，特斯拉目前正在执行的技术路线是什么？第二，它选择的技术方案是否正确。那么，投资者需要从特斯拉得到的相应信息就是，第一，对目前技术路线的解释，第二，论证所选择技术方案的正确性。
    根据一系列调查报告，我认为特斯拉正在使用“模拟学习方案”来推动自动驾驶任务。我对这种方案持乐观态度，主要有两个方面的原因。首先，DeepMind的AlphaStar项目引人注目地证明了纯粹模仿学习和使用模拟学习增强强化学习效果的实力。其二，来自Waymo和Uber ATG的专家也公开强调模仿学习是一种非常有前途的自动驾驶任务解决方案。
    此外，我对手工编码方案持怀疑态度，因为，到目前为止，它几乎没有成功的案例，因为人类有的时候很难将复杂的任务形式化为一套既定的规则，所以我对此持观望态度。另外，我对在模拟中使用纯粹的强化学习也持怀疑态度，因为在我看来，要进行模拟必须有一个真实的人类驾驶行为模型，以便神经网络学习如何在复杂的情况下和其它驾驶者互动。而要想创建出真实的人类驾驶行为模型就等同于打造出一款全自动驾驶汽车来了，所以这里有一个先有鸡还是先有蛋的问题。
    如果我们能够在特斯拉的自动驾驶投资者日上得到足够的信息来证明模仿学习方案的优势，以及特斯拉会证明为什么它的方案有效而其它方案没有用，那么，这次活动将会是一次非常重要的大事件，就我个人而言，我觉得这比特斯拉公布它最新季度的收益或者交付了多少车辆重要多了。