论文笔记_OD-RASE:面向自动驾驶的本体驱动风险评估与安全增强
OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving
基本信息
中文标题:OD-RASE:面向自动驾驶的本体驱动风险评估与安全增强
发表:2025年(ICCV 2025)
作者:Kota Shimomura、Masaki Nambata、Atsuya Ishikawa、Ryota Mimura、Koki Inoue、Takayoshi Yamashita、Takayuki Kawabuchi
机构:中部大学(Chubu University)、Elith 公司(Elith Inc.)、本田技术研究株式会社(Honda R&D Co., Ltd.)
摘要
背景: 自动驾驶感知已经表现不错了,但是在面对罕见场景以及复杂道路结构时仍然具有局限性。
道路基础设施是为人类驾驶者设计的,只有在发生了事故之后,才会进行安全提升。基础设施改进设计的各种方法比较如图1。

工作内容:
-
提出了一个新框架:能够在事故发生前,识别哪些道路结构容易导致交通事故,并把这些结构与具体的基础设施改善方案关联起来。
-
构建了一个交通安全本体:用专家的道路交通系统知识,把“致事故的道路结构”和相应的“基础设施改造建议”形式化表示出来。
-
提升了数据集的质量与可靠性:利用基于专家知识的“本体驱动数据过滤”,筛掉不合理或不可信的数据样本,从而得到更高质量的数据集。
文章首先构建了一个基于交通安全专家知识的道路交通本体(ontology),该本体以结构化形式表示“事故易发道路结构→风险场景→基础设施改进方案”的因果链条。
随后,作者利用视觉语言大模型(LVLM)对大量道路场景图像进行多步推理,自动生成“道路结构诊断”和“基础设施改造建议”。
为了保证这些生成内容的可靠性,论文使用构建的本体对LVLM的输出进行本体一致性校验(ontology-drivenfiltering),只保留与专家知识体系一致的样本,从而形成高质量的OD-RASE数据集。
在此基础上,作者训练了OD-RASE模型,它包含图像编码器、文本编码器以及扩散模型。该模型不仅能够根据道路场景预测事故风险道路结构及对应的基础设施改进方案,还能通过扩散模型可视化“改造后的道路结构”,提供直观的方案展示。
数据集
- Mapillary Vistas
- BDD100K
方法
Ontology-Driven OD-RASE Dataset
作者指出:为了训练OD-RASE,需要一个多模态数据集(包含道路环境的图像和对应的设施改进提案),但是没有这样的数据集存在,因此他们提出了该数据集。
- 将基础设施改进流程构建为Ontology
在这项研究中,我们重点关注有关传统基础设施改进流程的总结信息,并提出一种结构这些流程的方法。该信息包括390多个道路结构、事故情况和事故原因,但缺乏结构化格式。因此,道路交通系统领域的多位专家将可能导致事故的道路结构分为30种类型,并为每个结构分配相应的基础设施改进提案。由于一些改进重叠,我们将不同提案的数量减少到26种类型。然后,我们消除任何与时间相关的因素,例如交通量或移动车辆,并将类似的元素整合到一个类别中。
最终,如图2所示,导致事故的道路结构总数减少到11个,基础设施改进提案减少到10个。道路结构及其各自的改进计划的组合构成了从专家知识中派生的本体。

- 基于专家推理使用大模型生成基础设施改进提案
- 模仿专家的多阶段推理
作者把专家的思考拆成多步,并让视觉语言模型(VLM,使用GPT-4o)按这个流程来“想问题”:
1)先从图像中识别潜在的交通事故风险;
2)再推理在什么条件下会发生事故;
3)进一步推断是哪一种具体道路结构导致了事故;
4)最后在此基础上提出基础设施改进方案。
这一整套过程通过CoT(chain-of-thought)提示词引导VLM
- 图结构化的CoT提示:G2CoT
每一阶段大模型生成的文本都会被转换成图结构的提示(graph-based prompt),再交给下一阶段使用。这一串“图约束的逐步推理”被称为G2CoT(graph-based grounded CoT prompt)。
这样做的好处是:推理过程不仅有步骤,而且每一步都和后续的本体图结构对齐,更利于后面过滤与表示
- 将输出对齐到本体类别
G2CoT最终生成的基础设施改进提案会被归到前面3.1中定义的10类改进类型之一;推断出的道路结构也会被归到11类道路结构类型之一;这些都被转换成本体中的“实例”,写进同一个ontology里。
通过上述流程,作者就能为任意道路结构图像生成一个带有专家式推理链条、并且对齐本体类别的“改进方案标注”,为后续的“本体驱动过滤”和OD-RASE数据集构建打下基础。
- 基于专家知识的实体驱动数据过滤
读完之后我认为就是将VLM的生成的“道路结构—事故—改造”图,和ontology提供的参考图(该图由专家知识构建,定义哪些“结构—事故—改造”的组合是合理的)进行matching,只保留那些在本体中存在合法对应关系的节点和边,删除与本体约束矛盾的部分,从而获得与专家知识一致的高质量标注子图。
在匹配时,先把生成图和本体参考图在节点和边上做交集,删除所有本体中不存在的节点和关系;然后再删掉因此产生的孤立节点,并只保留端点仍存在的边;若模块间所有边都被删除,则舍弃整个样本。最终得到的是一个与 ontology 一致的子图。
OD-RASE Baseline

- 输入:某个道路结构的图像
- 输出1:该道路应采用的基础设施改进方案(10个类别的多标签)
- 输出2:在该方案下,改造后的道路可视化图像,便于非专家理解与决策
- 多模态改造方案预测模型
输入道路图像+风险描述→多模态编码→跨模态对齐→输出10类改造方案的多标签预测。
- 基于扩散模型的layout control图像编辑
从OD-RASE的输出多标签中,把预测的改造类别串成一句自然语言描述,比如:
“Improvement of road alignment and alert through signs and billboards …”
同时也会描述当前道路中存在的问题。将原始道路图像+上面生成的文本prompt一起输入InstructPix2Pix(扩散模型),生成一张按照改造建议“编辑过”的道路图像。
实验
在本节中,介绍了旨在解决三个问题的实验结果:
(1)是否有可能直接从道路结构图像中得出基础设施改进方案?
(2)利用基于专家知识的本体是否可以提高基础设施改进提案的数据集的质量?
(3)所提出的方法能否预测未见道路结构的基础设施改进计划?
-
数据集:Mapillary Vistas 和 BDD100K,分别生成并过滤改进提案后作为训练与评测数据。
-
视觉编码器(备选):ResNet-50、ViT-Base、CLIP、Long-CLIP。
-
文本编码器(备选):RoBERTa-Base、Flan-T5-xl、Long-CLIP。
-
训练细节:batch size=16,训练25个epoch,视觉编码器和文本编码器参数在训练中全部冻结,只训练跨模态Grounding block和分类头。损失函数为多标签的二元交叉熵(对每个类别做sigmoid+BCE)。
浙公网安备 33010602011771号