迈向人类级驾驶智能:VLA视觉语言的行动模型

芝能科技

    芝能科技出品
    2025年,由于安全和强监管的作用,辅助驾驶行业正处于黎明前的黑暗。
    面对复杂的现实路况、多样的人类行为模式,以及传统AI在泛化和理解能力上的瓶颈,理想汽车在《AI Talk第二季》系统性的阐述了“VLA(视觉语言行动模型)”。
    从逻辑上来看,VLA不是单一的模型升级,从模仿昆虫般的规则算法,到具备哺乳动物智能的端到端系统,再到真正具有人类驾驶认知和执行能力的“司机大模型”。
    我们从技术演化的三阶段入手,深入解析VLA的架构组成、训练流程和关键突破,探讨它如何打破智能驾驶发展的困局,成为迈向L4+自动驾驶的关键支点。
    
    01
    从蚂蚁到人类:
    VLA技术演化的三阶段
    
    阶段一:规则驱动与“昆虫智能”
    回溯智能驾驶的早期阶段,我们依赖于机器学习下的感知模块,配合高精地图、规则算法执行。系统的每一个子模块(感知、规划、控制)都需精密耦合,更多依赖人工设定的规则。
    这一阶段,智能驾驶系统更像是一只被设定程序路径的“蚂蚁”:只能在特定场景中“爬行”,缺乏对环境的真正理解和泛化能力。
    ◎ 感知模型参数规模小:仅几百万参数,处理能力严重受限。
    ◎ 对地图强依赖:高精地图一旦失效,系统极易出现功能崩溃。
    ◎ 缺乏上下文理解能力:面对突发场景(如施工绕行、人为交通指挥等)无所适从。
    这正如马戏团里受训的昆虫,仅能在被设定轨道内完成任务,缺乏主动决策与认知能力。
    阶段二:端到端与“哺乳动物智能”
    2023年起,理想汽车启动端到端(E2E)辅助驾驶研究,并在2024年开始实车部署。端到端模型将感知与控制流程一体化,通过大规模数据驱动“模仿学习”。
    该阶段的模型能通过模仿人类驾驶行为完成任务,具备初步泛化能力。
    ◎ 学习对象为人类驾驶行为:模型能够“看图开车”,感知场景并输出驾驶指令。
    ◎ 缺乏因果推理能力:模型虽能模仿,但无法理解行为背后的因果关系。
    ◎ VLM(视觉语言模型)的初步引入:引导模型理解交通信号语义和少量文字信息,但由于开源VLM多为低分辨率,泛化能力不足。
    端到端系统像是能骑车的猩猩:虽然能完成任务,但并不真正理解交通世界的规律与逻辑。这种“经验驱动”的模型仍存在理解维度浅、推理能力弱、泛化能力有限等瓶颈。
    阶段三:VLA(司机大模型)与“人类智能”
    进入VLA时代,智能驾驶系统不再是规则控制器,也不仅仅是模仿者,而是拥有“类人思维”的驾驶主体。
    VLA系统具备真正意义上的三重能力融合
    ◎ Vision:3D视觉 + 高清2D图像;
    ◎ Language:交通语言理解 + 内部CoT推理链;
    ◎ Action:驾驶行为的计划、决策与执行。
    VLA不同于传统VLM或E2E模型,它不仅能“看懂世界”,还能“理解”并“行动”,其智能程度首次接近人类驾驶员。
    02
    技术架构解析:
    如何构建一个“司机大模型”?
    
    预训练阶段的目标是打造一个视觉与语言紧密融合的VL(Vision + Language)多模态大模型,作为VLA的训练起点。
    当前版本的模型规模达到32B(320亿参数)级别,并部署于云端训练平台。
    此模型整合了丰富的视觉语料,包括3D空间感知和高清2D图像,其图像分辨率相比现有开源VLM提升了10倍,覆盖了远距识别、交通标志以及动态场景等复杂要素。
    同时,语言语料涵盖了驾驶指令、路况语义及行为规则,包含导航信息、人类指令和驾驶习惯用语。
    联合语料方面,通过将视觉语境与语言语义共同嵌入,如导航地图结合驾驶行为的理解,三维图像与指令逻辑结合,旨在构建一个具备物理世界理解能力的“多模态世界模型”。
    完成预训练后,32B模型被蒸馏为3.2B端侧模型,以适配Orin-X或Thor-U硬件平台,采用MoE(混合专家模型)架构实现效率与精度的平衡,确保模型能在实时40Hz帧率以上运行,满足车规级部署要求。
    
    进入后训练阶段,重点转向从理解到行动的模仿学习。
    如果说预训练赋予了模型“看与听”的能力,那么这一阶段则是让模型学会“动手”。
    通过大规模人车共驾数据的学习,模型能够模仿人类驾驶行为,学习轨迹、加速、刹车等操作。此外,生成式行为学习不仅限于回归预测,还能够进行轨迹生成与优化。
    任务集成模型(TAM)结构则将视觉语言理解与动作生成深度融合,提高任务执行效率。
    最终形成一个具备完整驾驶循环的VLA结构:从环境感知、意图理解到驾驶行为执行,构成闭环控制系统。
    模型扩展至4B参数,保留CoT(思维链)机制但限制在2~3步内,以兼顾推理能力和系统延迟。
    
    强化训练阶段强调的是从驾校到真实道路的过渡,注重人类偏好与安全边界控制。
    不同于传统的RL方法,VLA的强化训练体系引入了RLHF(人类反馈强化学习),通过人类介入标注数据形成“人接管—AI迭代”循环,融入用户偏好、道路安全行为习惯等软性目标。
    Diffusion预测模块能够在执行动作前预测未来4~8秒内的环境与轨迹变化,提供因果推理能力,为决策提供时域支持。
    这一过程如同驾驶员从实习到正式上岗的过程,使VLA不仅能开车,而且能安全、稳健地应对真实世界中的突发情况。
    
    视觉语言行动模型(VLA)体系中,最具突破性、也最贴近用户实际驾驶需求的部分,就是“司机Agent”的构建。
    所谓“司机Agent”是一个具备类人驾驶智能的“数字驾驶员”——它不仅能够看清楚、听明白,更关键的是,它能理解路况、语言指令以及驾驶意图,并做出合理的行动决策。这是VLA三个阶段演进的核心成果。
    传统的感知+规则算法,像昆虫一样只能被动反应、遵循简单指令。而端到端模型虽更聪明,像是训练有素的动物,可以模仿人类行为,却缺乏真正的世界理解。
    而VLA中的司机Agent则进一步融合了3D视觉理解、语言推理(CoT),以及实时行动策略学习能力,可以将一段自然语言“你在前方出口处靠右行驶”翻译为精准的轨迹控制,甚至在突发场景下进行动态调整。这意味着它不仅能看清红绿灯,还能“理解”红绿灯的语义和策略影响。
    司机Agent依托于三个关键训练步骤构建而成:
    ◎ 首先基于云端32B模型进行视觉语言联合建模,以理解3D现实世界与高分辨率2D图像并建立交通语境下的“语言-视觉”嵌套结构;
    ◎ 其次在端侧3.2B蒸馏模型上通过模仿学习实现行动建模,从人类驾驶数据中学会对视觉语义做出反应;
    ◎ 最后通过强化学习(尤其是RLHF)引入人类反馈,使系统不仅能学习“如何做”,更能学会“如何避免错误”,从而优化安全边际与驾驶习惯,完成从模拟到实战的过渡。
    VLA的司机Agent并非只是一套规则的叠加,而是一个拥有短链推理能力(CoT)和多模态协同决策能力的泛化智能体。
    在保持执行实时性的同时,它可以做出“如果我现在加速,5秒后前车可能会减速”的因果推演,并结合其训练过的行为偏好,选择更符合人类驾驶风格的方式进行操作。
    这个“司机Agent”是VLA真正走向量产落地的核心标志:它不仅是模型的集合体,更是驾驶行为的数字化拷贝。
    这一Agent的成熟将直接决定辅助驾驶是否能从“功能堆叠”迈向“驾驶替代”,真正成为每一位用户可信赖的“副驾”。
    小结
     VLA的意义不仅是技术,
    而是产业的破局钥匙
    VLA的出现,不只是技术体系的进化,更是辅助驾驶行业从困境走向突破的关键。今天的辅助驾驶争议重重:技术无法闭环、泛化能力弱、安全问题频出。
    但正因如此,VLA应运而生。不仅具备了“类人认知”,还以工程化路径落地,在算力可控范围内实现高度拟人化驾驶体验。它将视觉、语言、行动三者融合,从理解世界到改变世界,迈出了自动驾驶真正“可商用、可规模化”的第一步。
    VLA并非终点,而是一个开端。正如黎明前的黑暗终将过去,VLA标志着辅助驾驶正从工程试验品,迈向未来社会的基础设施。