25年9月来自英国利物浦大学、西交-利物浦和香港科大的论文“Large Foundation Models for Trajectory Prediction in Autonomous Driving: A Comprehensive Survey”。
轨迹预测是自动驾驶的关键机制,能够预测车辆和行人等交通参与者的未来运动路径,这对于驾驶安全至关重要。纵然传统的深度学习方法已经提高了准确性,但它们仍然存在固有的局限性,包括缺乏可解释性、严重依赖大规模注释数据以及长尾场景中的泛化能力弱。大型基础模型 (LFM) 的兴起正在改变轨迹预测的研究范式。本综述系统地回顾 LFM 的最新进展,特别是用于轨迹预测的大语言模型 (LLM) 和多模态大语言模型 (MLLM)。通过整合语言和场景语义,LFM 促进可解释的上下文推理,显着增强麻烦环境中的预测安全性和泛化能力。本文重点介绍三种核心方法:轨迹语言映射、多模态融合和基于约束的推理。它涵盖车辆和行人的预测任务、评估指标和数据集分析。本文讨论计算延迟、数据稀缺性和现实世界鲁棒性等关键挑战,以及低延迟推理、因果-觉察建模和运动基础模型等未来研究方向。
如图所示:自动驾驶中自车交互和轨迹预测

如图所示:概述方法论的历史演变,从早期基于规则的系统到由大型基础模型 (LFM) 驱动的当代语义推理方法。

如图所示,LFM 的发展路径反映其向集成度更高、知识更丰富、通用性更强架构的持续转变。这种转变从根本上将轨迹预测从低级模式识别任务转变为基于语义理解和认知推理的任务。

轨迹预测是自动驾驶系统的一项核心技术,旨在基于历史观测资料(例如位置和速度)和上下文知识(包括地图和交通规则)推断动态交通参与者(例如车辆和行人)的未来运动路径[14]。该领域大致分为车辆轨迹预测和行人轨迹预测,并根据预测实体进行区分。从方法论上讲,方法进一步分为传统方法和数据驱动方法,后者囊括深度学习和强化学习技术[15], [16]。
车辆轨迹预测
车辆轨迹预测是自动驾驶系统推理层的关键组成部分,它已经从基于物理规则的简化模型发展到数据驱动的深度学习框架。当代手段通过整合历史轨迹、多智能体交互特征以及来自高清地图的语义信息,完成了多秒级(通常为 3-6 秒)的高精度、概率性多模态轨迹预测。
1)基于物理的方法:这类方法利用动力学或运动学方程对车辆轨迹进行建模,具有计算效率高、无需训练实施等优势。然而,它们通常难以处理繁琐的交互场景,并且通常仅限于短期预测(≤1 秒)[17], [18]。代表性方法包括:单轨迹方法,该办法采用简化模型(例如恒定速度或恒定加速度)进行轨迹预测,忽略环境约束和相互作用[19];基于卡尔曼滤波器的方法,该方法凭借高斯分布表征状态噪声,并通过交互多模型 (IMM) 建立多模态输出[20];以及蒙特卡洛技术,该方法利用随机采样生成可行轨迹,并结合物理约束对预测进行细化[21]。
2)机器学习方式:这些方法运用数据驱动的方法对车辆行为模式进行建模,并预先定义驾驶意图(例如,变道、跟车),从而具有很强的可解释性、较高的计算效率以及更高的短期预测准确性 [22]。然而,它们表现出有限的泛化能力、对人工特征工程和大规模标注数据的依赖性、对动态环境的适应性受限以及处理复杂交通交互的困难。代表性技术包括高斯过程 (GP),它基于一组轨迹原型执行概率回归以捕捉交互关系 [23];隐马尔可夫模型 (HMM),它通过将历史轨迹视为观测序列来推断隐式驾驶意图 [24], [25];以及动态贝叶斯网络 (DBN),它经过集成时间推理和交互建模来提高艰难场景下的预测准确性 [26]。
3)深度学习方法:深度学习方法利用端到端架构自动提取时空特征,显著提高长期预测精度(≥ 5 秒),成为当前的研究主流 [27]。深度学习在车辆轨迹预测方面表现出色,它通过信息驱动的表示学习有效地建模交通参与者交互,在动态环境中通过分层特征融合展示稳健的性能,并生成多模态概率输出来捕捉行为不确定性。这些优势使深度学习成为轨迹预测研究的主流方法。然而,仍然存在重大挑战,包括过高的计算需求、黑箱架构固有的可解释性限制 [7]、对大量带注释素材集的严重依赖以及安全关键环境中不确定性量化不足 [8]。主流范式包括用于时间依赖性建模的序列模型,例如 RNN [3]、长短期记忆网络 (LSTM) [2] 和门控循环单元 (GRU) [1],其中注意机制(例如 Transformer)用于处理长程相关性 [28]。GNN 将交通智体和道路元素表示为节点,以编码拓扑交互 [5],[29]。生成对抗网络 (GAN) [4] 和条件变分自编码器 (CVAE) [6] 等生成模型由于能够生成有效捕捉行为不确定性和多样性的多模态轨迹,已被广泛应用于轨迹预测。通过将驾驶知识融入深度学习模型,这些方法已证明预测准确性和鲁棒性显著提高 [15]。
- 强化学习方法:强化学习 (RL) 通过从专家演示中学习奖励函数来推导出驾驶策略,以生成平衡安全性和操控效率的轨迹 [30]。具体而言,这些方法表现出三个主要优点:利用意图感知的奖励结构对交互场景进行有效建模,经过马尔可夫决策过程建立强大的长期预测能力,以及通过策略泛化对新环境的显著适应性 [31]。然而,RL 面临着关键的局限性,包括非凸优化景观固有的训练不稳定性、对大量高保真演示的严格依赖(易受分布偏差的影响)、设计可验证的安全关键奖励函数的挑战以及阻碍形式验证的黑盒策略的有限可解释性 [32]。主导范式包括最大熵逆强化学习,它将轨迹规划制定为熵正则化的多目标优化,以保持行为多样性 [33];深度逆强化学习(DIRL)集成卷积架构来处理多模态感官输入(例如,激光雷达、摄像头),以达成统一的感知决策流程[34];生成对抗模仿学习(GAIL)借助极小极大对抗训练来近似专家级策略,并展示对演示集之外状态的泛化能力[31]。
如表所示方法比较:

行人轨迹预测
行人轨迹预测是人-车混合环境下自动驾驶环境面临的一项基本感知挑战,其首要目的是通过预期避碰来提高运行安全性,同时确保具有社会-觉察的导航行为[16]。
- 基于物理的模型:基于物理的方法采用明确的规则来模拟行人动力学。主流的社交-力模型 (SFM) 经过对目的地的吸引力以及来自障碍物和车辆的排斥力来计算运动[35],其高级变型将车辆建模为椭圆形,以捕捉速度调制的危险区域[36]。补充途径包括运动学公式(例如,使用卡尔曼滤波器的恒定速度/加速度[37])和应用间隙接受阈值进行交互决策的元胞自动机[38]。这些模型提供对实时应用至关重要的高可解释性和计算效率,但也存在三个核心限制:手工制定的规则无法适应复杂的社会行为;确定性输出无法捕捉轨迹的不确定性;特定环境的标定(例如,使用 DUT [39] 数据)阻碍模型在非结构化空间中的泛化 [40]。
2)素材驱动方法:数据驱动手段通过学习隐交互模式克服 SFM 的限制。生成模型,包括对多模态轨迹的潜变量进行采样的 CVAE 和通过噪声注入实现预测多样化的 GAN [41]、[42],采用混合框架通过结构化的潜在空间来缓解模式崩溃 [43]。 GNN 利用编码相对距离、速度和航向角的智体节点和边来模拟异构交互 [44], [45],而分层架构通过与速度相关的边权重来区分行人与车辆的交互 [46],注意机制则优先处理关键交互 [47]。尽管这些模型能够捕捉非线性模式,但它们表现出三个关键的局限性:(i) 决策过程的不透明性阻碍可解释性 [48];(ii) 性能主要依赖于大规模带注释的数据集,但此类数据对于非结构化环境仍然稀缺;(iii) 长期预测可能违反运动学可行性,并且 GAN 容易受到模式崩溃现象的影响 [49]。
- 混合方法:混合框架将物理先验与数据驱动学习协同结合。专家数据融合策略利用 SFM 或博弈论冲突解决[50]来克服不可信的深度学习输出,而物理引导学习则通过运动学层来强化动态约束[51]。这种双重途径将数据驱动的准确性与基于物理的安全性相结合,从而提高鲁棒性,尤其是在共享空间中。然而,它增加实现复杂性,要求精细的环境标定,并且缺乏理论收敛保证[40]。
如表所示方法比较:

从传统模式识别到基于语义-觉察认知推理,轨迹预测范式发生转变。这种转变体现在学术研究的快速增长中,如图所示,该图展示 2023 年至 2025 年 9 月期间顶级学术机构的出版物分布情况。

如图所示,以 LLM 为中心的预测框架引入一个统一的架构,该架构包含三个协同支柱:
- 多模态对齐:异构输入(运动轨迹、视觉场景和语言提示)经过领域特定编码(例如,轨迹的 VQ-VAE 离散化,视觉语言基础的 CLIP),以生成维度一致的嵌入;
- 共识嵌入融合:跨模态注意机制将这些嵌入细化到统一的语义空间,从而实现时空动态和上下文语义的联合表示;
- 约束引导推理:CoT 分解通过自回归语言模型整合交通规则和物理约束(例如,“在人行横道处让行”),生成几何精确的轨迹和自然语言推理。该框架从根本上解决黑盒深度学习方法中的可解释性差距,同时增强了长尾场景中的泛化能力。

感知与场景理解
增强对艰难场景的理解能够构建对环境的整体感知,为准确预测交通参与者的行为和提升安全性奠定基础。
1)用于目标检测的视觉-语言模型 (VLM):
a) 技巧集成:VLM 依据将视觉感知与语义理解相结合,提升自动驾驶感知能力,构建开放词汇检测、多模态条件检测和长尾场景泛化 [52], [53]。从技术上讲,它们结合传统感知系统和语言模型的互补优势。例如,DriveVLM-Dual 将基于 VLM 的语义场景分析与传统的 3D 目标检测(例如基于 IoU 的跨模态对齐)相结合,利用语言描述增强对稀有物体(例如道路碎片和不规则车辆)的识别,同时利用几何检测器进行精确的 3D 定位,从而有效缓解 VLM 的空间推理局限性 [53]。
b) 在可解释性方面的作用:VLM 生成人类可解释的目标级描述,作为决策的中间表示。传统的感知系统(例如,物体检测、语义分割)提供结构化的环境素材,但其输出缺乏直观的可解释性。VLM 凭借将矢量化的目标状态(例如,位置、速度)转换为自然语言来弥补这一差距,从而实现对检测实体的上下文推理 [54]。
c) 协同集成:VLM 的语言增强检测输出直接服务于规划模块。RAG-Driver 进一步引入检索增强上下文学习 (RA-ICL),动态检索来自相似场景的专家演示,以增强零样本泛化能力(例如,未见过的伦敦道路),同时联合优化控制信号和自然语言解释 [55]。
2) 场景描述生成:
一种高效的 MLLM,它通过纳米变换器适配器将 RGB 摄像头流与语言建模融合,借助时空融合生成长文本导航字幕 [64]。就是a) 多模态感知:自动驾驶汽车集成异构传感器(例如摄像头、激光雷达、毫米波雷达),每种传感器在环境感知方面各有优缺点 [56], [57]。MLLM 在通过文本分析解读非文本材料(图像、点云)方面展现出强大的能力 [58],其基础框架包括 CLIP,它凭借图文对比学习生成图像表征 [59],以及 LLaMA,它将视觉编码器与 LLM 相结合,以增强对视觉语言概念的联合理解 [60]。特定领域的进展包括:DriveGPT4,它将视频输入转换为与驾驶相关的文本响应 [61];HiLM-D,它结合高分辨率视觉细节来提升危险识别能力 [62];Talk2BEV,它使用预训练的视觉语言模型将鸟瞰图 (BEV) 表征与语言上下文融合 [63]; Da Yu
b) 传感器融合范式:3D 目标探测器处理 LiDAR 点云后,可生成场景级特征图和目标级向量 [65]。当遮挡影响协作式自动驾驶汽车的传感器可见性时(例如,由于卡车或建筑物等大型障碍物),集中式多智体感知系统会利用联网车辆和基础设施的特征融合来解决盲点问题。例如,基于异构图的 Transformer 会动态地对遮挡区域中的基础设施特征进行加权,从而显著提高检测的鲁棒性 [66]。后续的安全关键建议(例如轨迹调整指令)由多模态 LLM 集成这些融合感知后生成,例如:“车辆在参考物体后方被检测到;调整轨迹以避免碰撞” [67]。这种多模态融合通过将视觉数据与语义线索进行情境化,完成了整体决策 [68]。
c) 生成场景建模:像 GAIA-1 这样的模型可以从视频、文本和动作输入中合成真实的驾驶场景,预测动态交互的潜在结果 [69]。VisionTrap 提出一个生成场景建模框架,该框架将环视摄像头输入与生成文本监督相结合,这些监督源自 VLM/LLM 精心设计的描述,从而在语义上丰富BEV 表示 [70]。DriveDreamer-2 [71] 中的 LLM 可能解释自然语言查询(例如,“模拟高速公路急刹车切入”),来生成智体轨迹和高清地图,并将其输入到基于扩散的世界模型中,该模型可以渲染时空一致的多视角视频。
d) 场景语义解析:LLM 通过多模态对齐和因果推理能力将环境感知提升到语义认知 [72], [73]。以 DualDiff+ 等框架为例,其语义融合注意机制 (SFA) 动态整合多模态输入,以提升对复杂场景的理解 [74]。LINGO-1 通过 CLIP 式对比学习将序列视觉特征和自然语言统一到联合嵌入空间,开创场景语义解析的先河。这种方法超越传统的几何基元(例如边框),生成结构化的场景语义,例如“行人在标记的人行横道处过马路”(空间效果解析)和“停放的货车部分阻塞车道”(目标状态上下文解析)。这些自然语言描述符将原始像素转换为可操作的场景图,供下游预测和规划模块启用 [75]。
基于 LLM 的车辆轨迹预测
基于 LLM 轨迹预测手段的发展,已经建立了一个涵盖表征映射、多模态融合和约束推理的三部分知识层次结构,通过整合结构化语义表征,超越传统的模式识别 [76]。
1) 轨迹-语言映射手段:
a) 轨迹建模的提示设计:提示工程已成为 LLM 中协调多模态输入和轨迹生成的关键方法,它已从基本的指令编写发展成为复杂的知识引导框架。当代方法构建结构化的文本提示,对交通场景语义(例如,道路拓扑、交通规则)和智体动态(例如,位置、速度)进行编码,以引出用于轨迹推理的场景嵌入 [76]。 STG-LLM 提出一种 token 化策略,将空间图中的每个节点视为一个 token,封装其时间序列观测值和时间语义(例如,时间向量)。这避免了自然语言描述的低效性,并使 LLM 能够借助多头注意机制捕捉时空依赖关系 [77]。S4-Driver 将历史自我状态(位置、速度、加速度)处理为文本提示中的浮点值,而高级行为命令(例如,“左转”)则以自然语言指令的形式给予。这种统一的文本表示避免显式的运动学参数化,并建立与多模态编码器的无缝集成 [78]。iMotion-LLM 采用结构化模板,其中包含框架定义的角色(例如,指定坐标系和输出格式)和用户献出的实时观测数据(例如,交通标志、智体状态),以促进轨迹预测和指令可行性评估 [79], [80]。CoT 推理借助多步骤提示进一步增强了这一框架,这些提示整合了上下文背景、交互分析和风险评估,以生成结构化的语义注释 [81]。此类提示通常具备意图指令(例如,“本车左转”)、场景描述(例如,交通信号灯、行人行为)和空间指令(例如,“在指定位置让车先行”)[82],从而实现细致入微的环境响应协调。同时,多模态问答对通过将视觉 token(例如,BEV 嵌入)与领域特定查询(场景感知、行为预测)融合来引导联合推理 [83],从而使交互式提示可操作化。正如 VQA 框架所证明的那样,该框架将运动学交互(例如,“前车:8.1 米/秒;后车:7.6 米/秒;间隙:11.8 米” [84])转化为可执行的轨迹预测。总的来说,这些策略建立了一个三部分知识层次:物理(运动学的数值/语言编码 [77], [78])、语义(将场景与规则绑定的逻辑链 [81], [82])和进化(自我优化提示迭代),从而增强了轨迹预测系统的可解释性、适应性和安全性。
b) 轨迹离散化和词汇构建:轨迹离散化通过结构化 token 方案将连续运动动力学与离散语言表示联系起来。Bezier曲线编码将车道几何形状转换为固定的控制点,构建用于空间上下文表示的专用词汇表[76]。驾驶轨迹通过VQ-VAE进行显式离散化,其中前视图像帧被 token 化为离散的视觉 token,逐帧相对运动被量化为动作单元[85]。类似地,GenFollower中的跟车行为被分割成基于时间步长的状态描述符(例如速度、间距),形成与LLM兼容的结构化自然语言提示[84]。时空图 token 化器(例如 STG-LLM)将麻烦动态分解为封装时间序列数据和时间语义的节点级 token [77],而 iMotion-LLM 将轨迹离散化为方向/速度/加速度序列以进行文本转换 [79]。多视角场景编码器通过生成表示环境地图、自车和智体动态的高维 token 进一步推进这一范式,有效地将场景组件构建为可学习的词汇 [83]。因果语言建模框架将这一过程形式化,将轨迹表示为利用自回归损失训练的离散运动 token 序列,用于多智体预测 [80],[86]。相反,一些方法避免离散化;例如,S4-Driver 通过直接回归浮点轨迹坐标来保持几何连续性,突出与基于 token 的办法的根本方法论分歧 [78]。总的来说,这些技巧建立从粒度离散化到语义抽象的范围,平衡表示保真度和计算可处理性。
2) 多模态融合架构:
a) 用于视觉-语言-轨迹对齐的统一编码器设计:推动基于 LLM 的轨迹预测领域近期进展的关键创新,是制作统一编码器架构,旨在实现视觉-语言轨迹的有效对齐。这些系统通常采用专门的模块:语言指令编码器从文本提示(例如,导航命令、行为描述)中提取语义特征;交互-觉察编码器捕捉目标智体与周围实体之间复杂的空间动态和依赖关系;跨模态编码器将这些语义和空间特征集成并细化为用于预测的连贯表示 [81]。至关重要的是,一些框架利用共享场景编码器来建立共同的基准点。例如,DiMA [83] 和相关的视觉基础规划器共享一个场景编码器,该编码器将视觉输入转换为结构化的 BEV token 嵌入,这些嵌入作为视觉、语言和轨迹信息的基本融合点,输入到规划 transformer 和 LFM 中,从而允许语言模型进行结构化的视觉制作 [61]。类似地,DrivingGPT 利用预训练的视觉编码器将前视视觉输入转换为离散嵌入,并结合轨迹信号的动作量化和语言 token 化器。这些模态被统一为一个交错的 token 序列,从而允许通过对下一个 token 自回归预测进行多模态对齐 [85]。这种范式可扩展到具有不同视觉和语言编码器的架构,其中 Q-Former 等组件将提取的视觉特征与文本 token 明确对齐,确保有效的跨模态融合以实现统一的表示 [87]。进一步的设计侧重于域特定融合。iMotion-LLM 将艰难场景数据编码为嵌入,并与嵌入的文本指令一起投影到 LLM 空间中。该设计实现了视觉启发的矢量数据、语言指令和轨迹输出之间的显式对齐,从而形成一个用于交互式运动规划的内聚框架 [79]。另一种高度集成的方法将预测任务本身重新表述为 Gemini 等预训练 LLM 中的视觉问答 (VQA) 困难,其中所有非传感器输入和输出都凭借特定于任务的提示表示为纯文本,从而利用模型固有的世界知识,同时绕过用于传感器融合的显式自定义编码器设计 [82]。总的来说,这些多样化的收敛编码器策略,从具有显式对齐的模块化多流处理到共享潜空间投影和任务重构,为在 LLM 内对齐异构视觉、语言和轨迹模态给出关键基础设施,从而实现稳健且上下文-觉察的未来运动预测。
b) 使用 LLM 进行交互建模:最近的进展利用 LLM 的内在推理能力来建模轨迹预测中的复杂智体交互,通过认知模拟和结构化表征学习超越传统的模式识别。CoT 提示机制使 LLM 能够将复杂的交互分解为顺序推理步骤,例如意图识别、风险评估和操作预测,从而允许像 CoT-Drive 这样的系统通过对智体-环境依赖关系进行显式建模来解释智能体行为(例如,依据分析与前车的相对速度来预测车道变换)[81]。该范式扩展到时空交互的 token 化。 DrivingGPT 将驾驶场景形式化为一种具有交织图像-动作 token 的多模态驾驶语言,利用自回归 transformer 对跨帧的时间动态进行建模 [85];STG-LLM 依据其时空图 (STG) token 化器将时空图 (STG) 材料转换为离散 token,封装每个图节点的时间动态,并通过 token 关系隐式表示空间语义。然后,STG-Adapter 解码这些表示,并基于 LLM 处理的特征进行预测 [77]。进一步的创新将交互形式化为语言建模任务。GenFollower 将跟车动态状态编码为结构化提示,利用 LLM 通过自然语言推理链预测纵向车辆交互 [84]。MotionLM 将连续轨迹离散化为运动 token,并采用自回归解码生成交互智体的联合分布,从而在预测中保留多智体协调 [86]。为了增强几何基础,混合架构整合视觉专家:S4-Driver 将多视角、多帧传感器资料聚合成 3D 稀疏体表示,为 LLM 输入提供丰富的结构化线索,用于空间关系推理 [78];openEMMA 将基于 YOLO 的目标检测与 MLLM 相结合,将智体状态(位置、速度)与场景语义联系起来,从而实现交互感知的轨迹预测 [82]。同时,知识蒸馏框架优化交互建模效率,其中通过双头协调模块训练的紧凑型 LLM 同步推理和规划目标,从繁琐数据集中提取交互模式 [87]。至关重要的是,像 iMotion-LLM 这样的手段表明,文本指令调整(例如,采用 InstructWaymo)将 LLM 先验与交互场景特征对齐,从而生成基于语言约束的符合社交规则的轨迹 [79]。总的来说,这些手段不仅将 LLM 作为预测器,而且作为交互式模型,凭借将原始传感器资料转换为可解释的、结构化的智体动态表示,从根本上提高社交-觉察轨迹预测的保真度。
3) 基于推理的预测框架:
a) 常识推理和因果轨迹建模:将常识知识和因果动态融入轨迹预测代表着一种范式转变,其中 LLM 超越模式识别,模拟类似人类的上下文推理。此种方法利用 LLM 作为特定域先验知识(例如,交通惯例、安全裕度)和因果机制(例如,加速作为对障碍物的响应)的存储库,从根本上增强预测的鲁棒性。显性知识注入通过语义基础搭建:预训练的语言编码器提取包含规范行为模式(例如,在交叉路口让行)的场景语义,从而实现与交通惯例相符的预测 [76]。类似地,TOKEN 利用目标级语义(交通锥、车辆状态)和结合交通规则的结构化推理,通过基于 LLM 的规则引导轨迹生成来生成因果一致的轨迹 [88]。同时,基于严格的 CoT 提示框架,CoT-Drive 利用目标级语义和嵌入式交通规则,首先生成上下文场景描述,然后通过四个结构化阶段逐步完善其推理:统计场景分析、多智体交互评估、碰撞风险量化,以及最终根据明确常识进行轨迹预测 [81]。GenFollower 将舒适度 / 安全性约束直接集成到提示中,要求对跟驰决策进行逐步论证 [84]。LC-LLM 将车道变换重定义为具有 CoT 监督的语言建模任务,生成基于因果前提的可解释预测(例如,“由于接近高速公路出口而接受间距”)[80]。为了使推理能力民主化,知识蒸馏通过结构化CoT数据集将常识推理从VLM迁移到紧凑的LLM,从而在资源受限的系统中增强任务一致性[87]。总的来说,这些方法将LLM定位为结构化推理引擎,将原始传感器资料转换为受规则支配的预测,其中编码交通惯例和安全约束。通过语义基础和多步因果推理整合常识先验,它们增强超越纯统计手段的鲁棒性,尽管反事实效度仍需进一步验证。
b) 交通规则遵守的语言约束:通过形式化的语言约束,基于 LLM 的轨迹预测中交通规范遵守的执行已发生革命性的变化,其中自然语言指令明确编码监管原则和安全协议,以减轻训练数据和实际场景之间的分布偏差。该范式将交通规则操作化为行动指导提示、教学条件和结构化推理框架,这些框架本质上约束模型输出。像 DriveGPT4 这样的框架利用 CoT 提示将规则遵守分解为可验证的推理步骤,这些步骤需要明确论证信号遵守(例如,“因红灯减速”)和优先通行惯例 [61]。同样,条件指令架构将监管语义直接嵌入到输入中。iMotion-LLM 通过根据场景上下文验证文本命令(例如,“左转”)来拒绝不可行的管理 [79]。 TOKEN 将道路级导航命令(例如,“在路口右转”)与以目标为中心的 token(例如,编码停车标志)相结合,利用结构化的 CoT 推理确保导航合规,在长尾场景中将碰撞减少 39% [88]。至关重要的是,显式安全原语被设计到系统提示中,其中 GenFollower 将最小跟车距离和舒适阈值硬编码为不可侵犯的语言边界 [84]。S4-Driver 将转弯命令(例如,“左转”/“右转”)编码为高级行为输入,以指导规划轨迹。这利用导航层面交通规则合规性的语言约束,而低级规则则是从资料中隐式学习的 [78]。总的来说,这些语言策略将交通法规操作化为可执行的认知框架,使基于 LLM 的规划器能够经过明确的约束生成遵守导航规则的轨迹,同时从数据中隐式学习安全关键行为,从而增强现实世界分布变化中的功能合规性。
4) 用于端到端轨迹预测的大语言模型 (LLM):
a) 语言驱动的端到端认知预测:传统的端到端自动驾驶框架在捕捉底层认知过程(例如,理解驾驶员意图、预测交互、推理场景上下文)方面存在严重局限性,缺乏对驾驶任务的真正理解和可解释性。这些系统通常像黑匣子一样运行,无法有效地将语义上下文(例如,“激进的切入意图”)应用于轨迹预测的生成[92], [93]。LLM 通过利用其双重功能——用于场景解释的上下文推理和用于逐步给予基本原理的语言生成——展现出变革的潜力[92]。然而,将 LLM 集成到实时驾驶系统中面临着计算效率与将高级文本推理映射到精确轨迹坐标这一尚未解决的挑战之间的根本性矛盾[92]。为了应对这些矛盾,最近的研究探索多模态融合和以语言为中心的范式。一项开创性的工作[76]使用贝塞尔曲线将场景几何编码为文本,将车道几何表示的大小减少56%。像CoT-Drive这样的并行框架通过CoT提示将预测分解为结构化的推理链:第一,识别冲突行为主体(例如,“等待过马路的行人”),然后推断行为约束(例如,“可能减速”),最后引导轨迹解码器输出符合要求的坐标[81]。Senna采用类似的以语言为中心方法,但将高级元动作生成(例如,“左转”)与低级轨迹预测解耦,其中视觉语言模型对场景进行推理并输出可解释的决策,这些决策由下游的端到端规划器[94]转换为精确的坐标。 DSDrive 通过语言驱动的显式 CoT 推理实现认知决策,并直接输出可解释的轨迹预测,将高级语义理解与低级运动规划无缝集成在一个轻量级的统一架构中 [87]。闭环架构代表第三条进化路径。LMDrive 率先采用这种范式,将 LLM 集成到一个闭环框架中,其中自然语言指令根据环境反馈动态地指导实时控制预测 [68]。
b) 汽车系统中的端到端轨迹预测:领先的汽车制造商正在积极探索端到端轨迹预测系统,这些系统越来越多地融入了LLM,从传统的模块化流程转向集成的认知架构。这种转变不仅仅是手艺上的,而且反映一种更广泛的转变,即向能够更好地解释和感知环境的平台转变。LLM的集成有助于提高基于推理的预测性能,同时也给安全认证和验证方法带来新的挑战。此外,硬件与算法的协同设计对于建立低预测延迟至关重要,这使得这些模型能够在领先的汽车计算平台上运行。特斯拉的《2024年影响报告》[95]指出,启用自动驾驶仪的汽车每行驶677万英里就会发生一次事故。这一安全记录得益于实时决策所需的低延迟感知和预测科技的进步。该系统的性能在具有挑战性的现实场景中得到了进一步的证明,例如在拥堵的交通中进行无保护的左转弯[96]。 Waymo 的办法集成 MotionLM 架构,该架构采用离散 token 和自回归解码进行高效的轨迹预测 [86]。这种协同作用搭建实时性能、鲁棒感知和对复杂交互的可靠预测,使高级模型在汽车计算环境中变得可行。理想汽车 HaloOS 通过确定性传感器融合将 IMU 到轨迹的延迟降低到 1 毫秒以下 [97]。据报道,小米的 HAD 架构利用基于BEV 框架构建的新型道路基础模型来搭建低延迟图像-到-轨迹的转换 [98]。认证基准证实,与行业平均水平相比,这些环境的碰撞概率降低了 8 倍,这主要归功于时间预测精度的提高 [95], [99]。
混合预测范式代表处理多样化驾驶场景的关键进步。如表所示,TCP 框架动态地将轨迹 GRU 网络与 ROACH 控制专家模型相结合,在急转弯场景下,CARLA 模拟的碰撞率降低了 37% [100]。DriveSuprim 采用旋转增强和自蒸馏软标签,在 NAVSIM v1 中获得了 93.5% PDMS 的最佳成绩。其性能提升在极端转向场景中尤为显著,在基准测试的急转弯子集上比之前的模型高出高达 2.9% [101]。同时,AutoDRRT 2.0 通过结合 BEV 模型量化、结构化稀疏性、算子优化和分布式计算等技术,实现了低于 100 毫秒的端到端延迟 [102]。这些创新在不同的运行环境中都展现出显著的性能提升,解决了多智体交互建模中长期存在的挑战。

通过基因验证和安全认证框架经历了变革性的发展。 Wayve 的 GAIA-1 使用离散 token 序列以 288×512 的分辨率合成驾驶场景,展示生成大量边缘案例的潜力,从而能够大幅减少对现实世界测试里程的依赖 [69], [103]。Waymo 的综合安全金字塔集成三个验证层级:包括众多边缘场景的广泛模拟里程;封闭式测试设施;以及城市环境中数百万英里的真实自动驾驶里程。如表所示,这种综合方法使行人碰撞率降低 92% [89]。NIO Banyan 系统利用生成式 AI 世界模型来模拟和预测关键驾驶场景,显著改善决策和安全性 [104]。这种向基于模拟的验证模式的转变对于管理汽车软件验证和确认日益增加的成本和复杂性至关重要,预计到 2030 年,汽车软件将占整个软件市场的 29%。它扩大了对低概率安全关键场景的覆盖范围,这些场景的物理测试成本过高或危险 [105]。

无保护的左转弯,代表着一种高风险执行,自动驾驶汽车在这种场景中表现出可量化的碰撞概率,正如专门的安全验证研究所证明的那样 [107]。SOLVE 体现 VLM 和端到端自动驾驶网络的收敛趋势,通过特征级知识共享(通过 SQ-Former)和轨迹级合作(通过 T-CoT 和时间解耦)实现协同集成,标志着通过多模态融合和高效推理范式进行稳健轨迹预测的未来方向 [108]。 OpenDriveVLA 的可扩展 VLA 架构提供不同复杂度的模型(例如,0.5 亿到 70 亿个参数),展现了硬件与算法协同设计在自动驾驶领域的潜力。即使运用最小的模型也能达成具有竞争力的性能,这为动态计算资源分配供应了一条可行的途径,这表明未来的实时系统可以调整模型复杂度以优化硬件利用率 [109]。物理信息学习(例如 Waymo 的 MotionLM [86])、生成式验证(例如 Wayve 的 GAIA [103])和硬件-觉察压缩(例如 AutoDRRT 2.0 [102])的融合,正在推动轨迹预测朝着可验证的安全性和经济部署的方向发展。 Waymo 安全研究和最佳实践总监 Trent Victor 表示:“这项研究进一步证明‘零愿景’原则具有拯救生命的潜力,并有助于指导打造世界上最值得信赖的驾驶员 [110]”。这一进化轨迹有望实现将类人上下文理解与机器人精确度相协调的自动驾驶系统,从根本上改变个人出行方式。就是c) 收敛趋势和未来方向:尽管取得这些进展,但仍存在重大挑战。强降水严重阻碍长尾泛化,因为它严重降低 LiDAR 点云的完整性,导致下游任务中的预测误差大幅放大 [106]。人车交互场景,尤其
浙公网安备 33010602011771号