• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
MKT-porter
博客园    首页    新随笔    联系   管理    订阅  订阅
视觉和语言 国防科大&清华城市空间无人机导航推理!GeoNav:赋予多模态大模型地理空间推理能力,实现语言指令导向的空中目标导航

image

 

image

 

arXiv-2024 | 具身智能体要上天!CITYNAV:基于地理信息的无人机视觉语言导航数据集

原文链接:CITYNAV: LANGUAGE-GOAL AERIAL NAVIGATION DATASET WITH GEOGRAPHIC INFORMATION (https://arxiv.org/pdf/2406.14240)

代码链接:https://water-cookie.github.io/city-nav-proj/

 

主要贡献
开发了一个基于浏览器的在线3D飞行模拟器,并与Amazon Mechanical Turk(MTurk)集成,用于收集大规模的人类标注的飞行轨迹。

引入了CityNav数据集,最新的无人机空中导航数据集,包含32,637个语言目标描述和人类演示轨迹,利用了真实城市的3D扫描及其地理信息。

提供了一个MGP(Map-based Goal Predictor)基线方法,用于城市规模的空中导航,该方法利用语义地图解释文本和地理地标的语义类别。

证明了无论是在正常还是在具有挑战性的条件下,在结合人类驱动策略和地理信息时,可以显著提高城市规模空中导航的性能,。
————————————————

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:https://blog.csdn.net/weixin_37990186/article/details/144474816

 

 

 

3 方法论

本节提出创新的多模态大模型导航框架GeoNav,该框架通过整合地理尺度与具身尺度的时空感知能力,实现地标物体导航任务。GeoNav包含三个核心模块:示意性认知地图(SCM)、层次化场景图(HSG)和多阶段导航策略(MNS),分别模拟智能体的感知-记忆-决策能力(如图1所示)。SCM构建并应用于地标导航与目标搜索阶段,而HSG在目标搜索阶段构建并最终用于目标定位。下文将详细解析这三个模块。

3.1 示意性认知地图

为使无人机快速导航至指定且可能遥远的地标,需在其内部建立城市环境的整体模型。通过该模型,无人机可在第一阶段掌握导航方向与距离,避免迂回飞行。但考虑到无人机同时具备地标先验知识K𝐿和实时观测𝐼𝑡等多模态信息,此类模型应如何设计?现有研究表明,纯数值数据(即便包含大量浮点数)会为多模态大模型的理解带来挑战[24]。因此,我们将先验地标信息转换为多模态大模型可解释的表示形式——将K𝐿中文本与数值描述的地标轮廓投影为俯视视角的示意性认知地图。这种可视化方式使基于MLLM的无人机能轻松理解其相对于地标的位置关系。更进一步,该模型可通过融合具身观测数据,在第二阶段(目标搜索)持续使用,以描绘地标区域周边物体的语义与空间关系。该方法定义的地图采用与世界坐标系对应的像素坐标系。如图2示例所示,SCM通过以下流程整合地理先验与机载感知数据:

 

3 方法论

本节提出创新的多模态大模型导航框架GeoNav,该框架通过整合地理尺度与具身尺度的时空感知能力,实现地标物体导航任务。GeoNav包含三个核心模块:示意性认知地图(SCM)、层次化场景图(HSG)和多阶段导航策略(MNS),分别模拟智能体的感知-记忆-决策能力(如图1所示)。SCM构建并应用于地标导航与目标搜索阶段,而HSG在目标搜索阶段构建并最终用于目标定位。下文将详细解析这三个模块。

3.1 示意性认知地图

为使无人机快速导航至指定且可能遥远的地标,需在其内部建立城市环境的整体模型。通过该模型,无人机可在第一阶段掌握导航方向与距离,避免迂回飞行。但考虑到无人机同时具备地标先验知识K𝐿和实时观测𝐼𝑡等多模态信息,此类模型应如何设计?现有研究表明,纯数值数据(即便包含大量浮点数)会为多模态大模型的理解带来挑战[24]。因此,我们将先验地标信息转换为多模态大模型可解释的表示形式——将K𝐿中文本与数值描述的地标轮廓投影为俯视视角的示意性认知地图。这种可视化方式使基于MLLM的无人机能轻松理解其相对于地标的位置关系。更进一步,该模型可通过融合具身观测数据,在第二阶段(目标搜索)持续使用,以描绘地标区域周边物体的语义与空间关系。该方法定义的地图采用与世界坐标系对应的像素坐标系。如图2示例所示,SCM通过以下流程整合地理先验与机载感知数据:

  1. 从OpenGIS数据获取地标𝐿的先验地理信息,并投影至地标地图
  2. 通过GroundDino[20]处理无人机下视RGB图像检测物体,再经Segment Anything[14]优化边界框生成分割掩码
  3. 将掩码像素转换为世界坐标,生成带物体标注的语义地图
  4. 结合方向指示元素(虚线箭头表示无人机轨迹),形成导航策略基础该SCM构建流程涉及系列坐标变换(详见附录A.1)

 

image

 

 

 

image

 

 

image

 

 

image

 

image

 

image

 HSG的层次化结构优势在于:当场景中出现多个相似物体时,智能体不仅能根据目标自身属性,还能通过其与地标或其他物体的空间关系进行识别。

image

 

image

 

image

 

image

 

image

 

image

 

image

 基于地图的目标预测器 (MGP) 是我们提出的模型,它结合了最先进的现成模型来执行基于地图的目标预测。它利用每个时间步生成的导航地图,通过以下三个步骤进行:

(i) 使用 GPT-3.5 Turbo 提取目标、地标和周围环境的名称;

(ii) 使用 GroundingDINO 和 Mobile-SAM 进行物体检测和分割;

(iii) 使用 LLaVA-1.6-34b 进行可选的坐标细化(使用标记集提示)。

地图编码器使用包含地标地图、视野和探索区域地图以及目标和周围环境地图的导航地图,并与跨模态注意力机制的 RGB 和深度编码器一起进行训练。

 

 

 

 

 

image

 

 

image

 

 

image

 

image

 

QUERY_OPERATION_CHAIN_PROMPT = """
将导航指令转换为查询操作链。可用操作包括:
• get_geonode_by_name(name_pattern):根据名称模式查找地理节点
• get_child_nodes(parent, relation_type):获取与父节点具有指定关系的子节点
  可用关系类型:"contains"(包含), "adjacent_to"(相邻), "near_corner"(靠近角落), 
  "north_of"(位于...北侧), "south_of"(位于...南侧), "east_of"(位于...东侧),
  "west_of"(位于...西侧), "northeast_of"(位于...东北侧), "northwest_of"(位于...西北侧),
  "southeast_of"(位于...东南侧), "southwest_of"(位于...西南侧)
• filter_by_class(obj_class):按对象类别筛选节点
  可选类别:["vehicle"(车辆), "road"(道路), "building"(建筑), "parking_lot"(停车场), "green_space"(绿地)等]
• filter_by_attribute(key, value):按属性键值对筛选对象节点

注意事项:
(1)描述中的"in front of"(在前方)在指北地图中通常对应"north_of"(位于...北侧)关系
(2)描述中的"behind"(在后方)在指北地图中通常对应"south_of"(位于...南侧)关系  
(3)对于"停在路上"的描述,通常使用道路对象的"contains"(包含)关系
(4)当描述多个对象的相对位置时,需要找到连接这些对象的关系链
(5)当多个操作链表示相对关系时,需确保操作链的连贯性

示例指令:"这是一辆停在戴维路(Davey Road)上的白色汽车,其前方有一辆头朝相反方向的灰色汽车"
返回操作链:
[
  {"method": "get_geonode_by_name", "args": ["Davey Road"]},
  {"method": "get_child_nodes", "kwargs": {"relation_type": "contains"}},
  {"method": "filter_by_class", "args": ["vehicle"]},
  {"method": "filter_by_attribute", "args": ["color", "white"]}
]

当前指令:{instruction}
"""

  

image

 

image

 

image

 

image

 

image

 

image

 

image

 

image

 A.5.4 数据集来源与预处理• ​​Cityrefer​​:城市级点云数据的地理感知3D视觉定位数据集• ​​Citynav​​:融合地理信息的语言目标空中导航数据集• ​​SensatUrban​​:包含近30亿个精细标注点的城市级摄影测量点云数据集数据预处理步骤参考https://github.com/water-cookie/citynav/issues/提供的建议与参考文献

posted on 2025-10-21 01:18  MKT-porter  阅读(7)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3