空间记忆与地图表示调研报告:从绝对坐标到相对空间关系

Runqing Xu  |  2026年7月2日

一、调研背景与目标

在具身智能体的室内导航任务中,基于绝对坐标的空间理解体系面临固有局限:对建图精度高度依赖、难以处理动态环境变化、且与自然语言指令之间存在语义鸿沟。相比之下,人类主要依靠周围物体和空间关系(如"桌子旁边"、"厨房对面的房间")来理解和描述位置,这种相对空间关系理解体系更具鲁棒性和灵活性。本报告围绕"如何从绝对坐标体系转向相对空间关系体系"这一核心问题,从语义地图表示、空间认知定位、Planner消费模式、空间关系建模、代表性系统五个方向,调研了15篇代表性工作。

本报告系统调研了15篇代表性工作,覆盖语义地图与embedding表示(ConceptGraphs、VLMaps、CLIP-Fields)、空间认知与非几何定位(SceneGraphLoc、RoboHop、SPACE Benchmark)、Planner消费地图(SayPlan、SG-Nav、MapGPT、MapNav)、空间关系建模(SpatialVLM、SR-Nav、HRON)、代表性端到端系统(3D-Mem、ESCA)五个方向,为技术选型和系统设计提供决策依据。


二、核心结论

问题1:有没有不依赖传统地图或精确坐标的空间表示方案?

结论:有,且已形成三条成熟技术路线。

问题2:有没有基于空间认知而非几何定位的方案?

结论:有,但必须清醒认识VLM空间认知能力的严重不足。

SceneGraphLoc证明了场景图可以作为极其紧凑的定位参考——仅5.4MB存储即可替代5720.3MB的图像数据库,存储压缩1000倍,检索速度快1000倍以上。RoboHop更激进地证明了纯拓扑表示(无任何度量坐标)即可支持导航规划。

但SPACE Benchmark(ICLR 2025)揭示了一个结构性问题:该基准测试时的前沿VLM(GPT-4o、Claude 3.5 Sonnet等)在第一人称视角下的大尺度空间认知任务中接近随机水平(GPT-4o仅23.0%,chance为15.0%)。Mental rotation、perspective taking等核心空间认知能力均接近随机。尽管此后模型能力有所提升,但这一结论指向的是VLM架构层面的固有短板——空间认知并非简单的语义理解,而需要专门的空间推理机制。因此,不宜将空间推理直接委托给通用VLM,应当构建显式的外部空间表示作为辅助。

一个重要发现是:VLM在纯文本呈现下的空间认知显著优于多模态呈现(Claude 3.5: 文本64.5% vs 多模态43.8%),这为将空间信息结构化为文本/符号表示后再交给LLM处理的技术路线提供了有力支持。

问题3:Planner如何利用地图?

结论:主流消费模式有四种,文本序列化是当前最优解。

消费模式代表工作优势局限
JSON序列化ConceptGraphs, SayPlan结构化、LLM友好大场景token开销大
纯文本拓扑MapGPT最轻量、LLM理解最好丢失距离/方向信息
代码生成调用APIVLMaps封装好、可扩展需预定义API
视觉地图直接输入MapNav保留2D空间拓扑需VLM微调、依赖文字标注

SayPlan的collapse-and-expand机制特别值得关注:通过层级折叠将6731 tokens压缩至878 tokens(压缩86.9%),在保证LLM可消费性的同时解决了大场景的扩展性问题。SG-Nav的层级Chain-of-Thought prompting证明了结构化场景图比扁平文本列表更有效(SR提升+3.7%)。

MapNav提出了一个值得关注的思路:在语义地图上叠加物体名称的文字标注以提升VLM的理解能力。但需注意,该工作在实际复现中效果远低于论文报告的数值,其方案更适合作为思路参考而非直接工程借鉴。

问题4:如何建模空间关系(前后左右相邻连通)?

结论:多维关系编码(拓扑+方向+距离)效果最佳,拓扑关系是最关键的维度。

SR-Nav的DSRG提出了最完整的空间关系编码方案,同时编码三种维度:拓扑关系(包含、连接)、方向关系(相对角度方位)、距离关系(欧氏距离量化)。消融实验表明拓扑关系对性能影响最大(去除后SR降5.6%),距离次之(降2.3%),方向最小(降1.0%)。

SpatialVLM通过20亿条自动生成的spatial VQA数据训练VLM,使其具备定性空间判断能力(75.2% accuracy),证明了"A在B左边"等定性描述的可行性。但定量距离估计精度有限(仅37.2%在GT的半到两倍范围内),不足以支撑精确控制。

HRON的层次化关系设计(object-onTop/inside/under-furniture-inRoom-room-roomConnected-room)为我们提供了可直接借鉴的关系谓词体系。其实验证明:场景图+任务驱动注意力的SR(0.879)远超2D语义地图(0.554),为场景图路线提供了定量支撑。

问题5:代表性系统总结

系统一:SG-Nav(在线场景图 + 层级CoT导航)

SG-Nav是将场景图与LLM结合进行导航的最完整工程落地方案。感知端在线构建object-group-room三层场景图,增量式更新边关系;决策端将场景图切分为子图,通过层级Chain-of-Thought引导LLM逐层推理目标位置;验证端通过Re-perception机制利用场景图上下文过滤检测误报。在三个benchmark上以zero-shot方式超越此前所有zero-shot方法(MP3D SR 40.2%,超越supervised方法SemEXP的36.0%)。

系统二:SR-Nav(空间关系图 + 双模块协同)

SR-Nav将空间关系建模提升到最高水平。其DSRG融合LLM生成的经验性空间先验与在线感知观测,同时服务于感知校正(RAMM模块通过空间关系一致性检验甄别FP/FN)和导航规划(DRPM模块将关系路径转化为语义导航线索)。在HM3D上达到58.3% SR,比SG-Nav高4.4%,同时推理速度快8.7倍。

系统三:3D-Mem(视觉快照记忆 + VLM直接推理)

3D-Mem挑战了场景图范式,提出用精选的多视角快照图像替代图结构作为空间记忆。通过Co-Visibility Clustering选出信息密度最高的代表帧,让VLM直接在图像上推理空间关系。在需要精细空间判断的任务上(如"扶手椅前方是否有足够空间")显著优于ConceptGraphs的文本化场景图(spatial understanding: 43.4 vs 32.9)。


三、全景对比

论文简称所属方向空间表示类型Planner消费方式是否需要坐标是否在线构建是否真机部署关键指标
ConceptGraphs方向1,53D场景图(物体节点+关系边)JSON序列化送LLM需要(包围盒)增量式真机节点精度0.71, 边精度0.88
VLMaps方向12D栅格embedding地图LLM生成代码调API需要(栅格坐标)增量式否(仿真)导航SR 59%, pixel acc 92.3%
CLIP-Fields方向1隐式3D神经场Embedding检索+SLAM导航需要(3D坐标)否(场景级训练)真机语义查询SR 71-86%
SceneGraphLoc方向23D场景图(多模态节点)Patch-to-node匹配定位需要(3D点云)否(离线)R@1 81.5%, 存储5.4MB
RoboHop方向2纯拓扑segment图Dijkstra最短路径不需要在线真机零样本导航, 无需训练
SPACE方向2Benchmark(无表示)评估VLM空间认知N/AN/AN/AGPT-4o大尺度任务仅23.0%
SayPlan方向3层级3DSG(4层)折叠-展开语义搜索需要(位姿)否(预建)否(仿真)长程可执行率86.6%, 压缩86.9%
SG-Nav方向3层级场景图(3层)层级CoT prompting需要(3D实例)在线增量否(仿真)MP3D SR 40.2%(zero-shot SOTA)
MapGPT方向3纯文本拓扑地图文本注入LLM prompt不需要在线否(仿真)R2R SR 47.7%(GPT-4V)
MapNav方向3带文字标注的语义顶视图VLM视觉编码器消费需要(栅格坐标)在线否(仿真)论文报告R2R-CE SR 39.7%,实际复现效果远低于此
SpatialVLM方向4VLM内化的空间知识CoT空间查询子模块不需要(单图推理)N/A定性acc 75.2%, 定量有效率99%
SR-Nav方向4动态空间关系图(DSRG)关系路径推理+语义线索部分(距离估计)在线动态否(仿真)HM3D SR 58.3%(zero-shot SOTA)
HRON方向4层次化场景图(3层关系)GNN编码+任务驱动注意力需要(局部坐标)增量式否(仿真)探索导航SR 0.879(+注意力)
3D-Mem方向5多视角快照图像集VLM直接视觉推理需要(底层物体集)在线增量否(仿真)A-EQA 52.6%, GOAT SR 69.1%
ESCA方向5概率时空场景图选择性注入MLLM prompt不需要(相对关系)在线否(仿真)感知错误69%降至30%

四、方向1:语义地图与embedding表示

4.1 问题定义

传统语义地图将每个栅格标注为预定义类别集合中的离散标签(如40类Matterport类别),这种封闭词汇的表示无法应对开放世界中的新物体和新概念。方向1探索的核心问题是:如何构建一种语义丰富、支持开放词汇查询、且能有效服务于下游规划任务的空间表示?

4.2 现有方案对比

维度ConceptGraphsVLMapsCLIP-Fields
表示粒度物体级(每个节点=一个物体)像素级(每个栅格=一个embedding)点级(任意3D坐标=一个embedding)
空间维度3D(点云+包围盒)2D(俯视栅格)3D(隐式神经场)
显式/隐式显式图结构显式栅格存储隐式神经网络权重
开放词汇是(CLIP+LLaVA+GPT-4)是(LSeg/CLIP)是(CLIP+SBERT+Detic)
物体关系显式边(LLM推断语义关系)无(需通过坐标计算)无(需遍历点积)
增量更新支持(添加/删除节点)支持(均值融合)不支持(需重训)
查询方式JSON序列化送LLM推理文本embedding余弦相似度embedding点积检索
存储效率高(仅存节点信息)中(H x W x C栅格)高(神经网络参数)
对动态场景部分支持(增删节点)不支持不支持
真机验证是(Jackal, Stretch)否(Habitat仿真)是(Hello Robot Stretch)

三者构成了一条清晰的演进线索:VLMaps的2D像素级栅格 -> CLIP-Fields的3D点级神经场 -> ConceptGraphs的3D物体级场景图,表示粒度逐步提升,从稠密底层特征走向结构化高层语义。

4.3 系统设计启示

  1. 推荐采用ConceptGraphs的物体级场景图路线。 物体级粒度与人类的空间认知方式最为接近——人类记住的是"桌子上有杯子",而非"坐标(3.2, 5.1)处有embedding向量"。图结构天然支持相对空间关系的编码,且JSON序列化后可直接供LLM消费。
  2. 保留VLMaps的embedding查询能力作为底层检索引擎。 当需要回答"哪里有红色的东西"这类细粒度查询时,embedding相似度检索比遍历场景图节点描述更高效。可以在场景图节点中保留CLIP embedding作为属性。
  3. CLIP-Fields的隐式表示不适合在线场景。 场景级训练无法支持增量更新,且查询需要遍历全场景点,不适合实时系统。但其"将多模态embedding编码到空间坐标"的理念可以借鉴。

4.4 推荐关键图

ConceptGraphs完整管线流程图
ConceptGraphs完整管线流程图:展示从RGB-D输入到场景图构建到LLM规划的全流程
VLMaps系统总览
VLMaps系统总览:展示embedding地图构建和开放词汇地标索引的双流程

五、方向2:空间认知与非几何定位

5.1 问题定义

传统定位方案依赖精确的6DoF位姿估计和大规模图像/点云数据库,存储和计算代价高昂。方向2探索的问题是:能否像人类一样,通过识别周围物体和理解空间关系来判断"我在哪里",而非依赖精确坐标?更根本地,当前的VLM到底具备多少空间认知能力?

5.2 现有方案对比

维度SceneGraphLocRoboHopSPACE Benchmark
核心目标场景级粗定位无坐标导航评估VLM空间认知
是否需要坐标需要(节点含3D信息)完全不需要N/A(评估框架)
地图表示3D场景图(多模态节点)纯拓扑segment图
存储效率5.4MB(1000倍压缩)极低(仅描述子)N/A
检索速度1.5ms/50场景实时(Dijkstra)N/A
空间关系利用结构+关系embedding帧内邻接+帧间持续15项认知测试
核心发现场景图可替代图像库纯拓扑即可导航VLM空间认知接近随机
对VLM的依赖不依赖(对比学习)仅查询解析用GPT-4被评估对象

5.3 系统设计启示

  1. SPACE Benchmark的结论是最重要的警示:不能将空间推理委托给VLM。 所有前沿VLM在egocentric image模式下的大尺度空间认知接近随机水平。这意味着必须构建显式的外部空间表示(场景图或拓扑图),而非期望VLM通过"看"就能理解空间。
  2. 文本/符号表示优于视觉表示。 SPACE的数据清晰表明,将空间信息结构化为文本后再交给LLM,效果显著优于直接输入图像。这直接验证了通过场景图等符号化表示来桥接VLM与空间推理的技术路线。
  3. RoboHop的纯拓扑方案可作为轻量级备选。 在不需要精确位置但需要快速部署的场景中,RoboHop的segment-as-node拓扑图提供了一种零样本、不需要训练策略的导航方案。
  4. SceneGraphLoc的多模态融合框架值得借鉴。 其将几何(点云)、语义(类别、属性)、拓扑(关系)和视觉(图像)信息融合到统一的节点embedding中的设计,为构建丰富的空间表示提供了参考。

5.4 推荐关键图

SPACE Benchmark总览图
SPACE Benchmark总览图:展示15项空间认知测试的完整分类
RoboHop系统整体流程
RoboHop系统整体流程:展示纯拓扑地图的构建和导航

六、方向3:Planner如何消费地图

6.1 问题定义

构建好的空间表示如何被Planner有效消费,是决定整体系统性能的关键接口。方向3探索的问题是:LLM/VLM-based Planner应该以什么形式接收空间信息?文本序列化、视觉输入、代码生成、还是其他方式?

6.2 现有方案对比

维度SayPlanSG-NavMapGPTMapNav
地图类型层级3DSG(4层)层级场景图(3层)纯文本拓扑图带文字标注的语义顶视图
消费方式JSON序列化+交互式搜索子图+层级CoT纯文本注入promptVLM视觉编码器
LLM交互模式多轮(搜索+规划)单轮(每步评分)单轮(思考+规划+动作)单轮(直接输出动作)
扩展性方案Collapse-expand+contraction子图切分+批量推理三类节点分类恒定0.17MB
Token效率6731->878(压缩86.9%)O(m)边生成平均672/步恒定(图像token)
是否在线否(预建)是(在线增量)是(在线)是(在线)
是否需要坐标需要(位姿)需要(3D实例)不需要需要(栅格坐标)
任务类型多步操作规划物体目标导航VLN指令跟随VLN-CE连续导航
关键指标长程可执行率86.6%MP3D SR 40.2%R2R SR 47.7%论文报告R2R-CE SR 39.7%(复现不达预期)

四种消费模式的核心差异在于信息传递的"接口层":SayPlan和SG-Nav通过文本序列化保留了图结构信息;MapGPT彻底去结构化,只保留拓扑连接的文本描述;MapNav则走视觉路线,让VLM直接"看"地图图像,但其实际复现效果不佳,"文字标注提升VLM地图理解"的思路仍有价值,工程落地需谨慎。

6.3 系统设计启示

  1. 推荐采用分层文本序列化作为主消费接口。 SG-Nav的实验证明层级CoT比扁平文本列表提升3.7% SR,SayPlan证明层级折叠可将token压缩86.9%。
  2. MapGPT的去坐标化提供了有力的实验支撑。 坐标输入反而降低性能(SR降1.4%)的实验结果,表明从绝对坐标向相对空间关系转型在技术上是合理的。
  3. MapNav的文字标注思路可作为参考。 在顶视图上叠加物体名称文字标签的方向是合理的,但该方案在实际复现中效果有限,不宜直接采信论文数据,需结合具体场景验证。
  4. 迭代验证机制是保证可执行性的关键。 SayPlan的Scene Graph Simulator验证+迭代重规划将长程任务可执行率从13.3%提升到86.6%。

6.4 推荐关键图

SayPlan整体框架
SayPlan整体框架:展示collapse-expand语义搜索和迭代重规划的双阶段设计
MapGPT系统架构
MapGPT系统架构:展示linguistic-formed map的具体prompt格式

七、方向4:空间关系建模

7.1 问题定义

从绝对坐标转向相对空间关系,核心技术挑战是:如何有效建模前后、左右、相邻、连通、包含等空间关系?这些关系应以什么形式编码,以便被Planner消费?VLM能在多大程度上理解这些关系?

7.2 现有方案对比

维度SpatialVLMSR-NavHRON
核心方法大规模数据训练VLMLLM先验+在线更新的关系图GNN+任务驱动注意力
关系类型方向(左右前后上下)+距离+大小拓扑+方向+距离(三维)onTop/inside/under/inRoom/connected
编码方式VLM内化(自然语言问答)显式图边(JSON三元组)有向类型化边(GNN消息传递)
层级结构无(扁平物体对)物体级+区域级object-furniture-room(3层)
训练数据20亿条自动生成QA无需训练(prompt工程)RL训练(PPO, 150万步)
定性/定量两者兼有(38种问题类型)定性为主(定量为粗略估计)定性(谓词分类)
关键发现定性acc 75.2%, 定量精度有限拓扑关系最关键(去除后SR降5.6%)场景图+注意力SR 0.879 vs 2D地图0.554

7.3 系统设计启示

  1. 采用SR-Nav的三维关系编码方案。 拓扑关系(包含、连通)+ 方向关系(相对方位)+ 距离关系(粗略量化)的三元组表示,与类人空间理解的目标高度契合。
  2. LLM先验+在线更新的双源融合策略可直接复用。 在进入新环境前,用LLM生成目标物体的空间关系先验,然后在探索中用实际观测逐步修正。
  3. HRON的实验为场景图路线提供了定量支撑。 场景图+任务驱动注意力(SR 0.879)远超2D语义地图(0.554),且纯场景图无注意力(0.458)反而不如无场景图(0.586),说明信息过滤机制至关重要。
  4. SpatialVLM证明了定性空间推理的可行性但定量精度不足。 "A在B左边""A比B高"等定性描述可以作为有效的空间表征(75.2% accuracy),但距离估计精度有限。

7.4 推荐关键图

SR-Nav系统总览
SR-Nav系统总览:展示DSRG的离线初始化与在线更新,以及RAMM和DRPM两个核心模块
HRON模型架构
HRON模型架构:展示GNN+任务驱动注意力的层次化关系推理

八、方向5:代表性端到端系统

8.1 问题定义

上述四个方向分别解决了空间表示、认知定位、Planner消费和关系建模的子问题。方向5关注的是:当这些模块组合为端到端系统时,哪些是真正的瓶颈?场景图是否是最佳方案?

8.2 3D-Mem:挑战场景图范式

3D-Mem对场景图提出了有力的质疑:当需要回答"扶手椅前面是否有足够空间放咖啡桌"时,场景图只能提供"chair near sofa"这样的粗糙文本,无法度量空间余量或判断朝向性关系。3D-Mem的替代方案是:通过Co-Visibility Clustering选出信息密度最高的多视角快照图像,让VLM直接在图像上进行视觉推理。

实验表明,3D-Mem在spatial understanding类问题上显著优于ConceptGraphs(A-EQA: 43.4 vs 32.9),在GOAT-Bench终身导航上SR达69.1%。但3D-Mem并非完全抛弃结构化信息:它仍然维护底层物体集合作为索引,本质上是"结构化索引+视觉快照"的混合架构。

8.3 ESCA:感知是瓶颈而非规划

ESCA提供了最具冲击力的实证发现:在60个EB-Navigation任务中,69%的失败源于感知错误(hallucination + 误识别),仅11%源于推理错误,20%源于规划错误。引入ESCA的结构化scene graph增强后,感知错误降至30%,InternVL-2.5(开源38B)的性能超越了GPT-4o基线。

ESCA的核心设计是Selective Grounding:不将完整scene graph注入MLLM(这可能反而降低性能),而是根据任务instruction选择性地提取相关子集。

8.4 系统设计启示

  1. "场景图+视觉快照"的混合架构是最佳方案。 3D-Mem证明了视觉快照在精细空间推理上的优势,但场景图在跨区域推理、长程规划和快速检索上不可替代。
  2. 优先投入感知模块的改善。 ESCA的69%感知错误比例表明,在Planner不变的情况下,改善感知能力的ROI远高于改善规划。
  3. Selective Grounding原则应贯穿系统设计。 不论是场景图还是视觉快照,都不应无差别地全量传递给Planner。

8.5 推荐关键图

3D-Mem系统总览
3D-Mem系统总览:展示Memory Snapshots和Frontier Snapshots的协同工作
ESCA错误分解分析图
ESCA错误分解分析图:展示69%感知错误降至30%的核心发现

九、整体建议与实施路线

9.1 推荐的空间表示方案

综合15篇论文的证据,推荐采用"层级场景图 + 多维空间关系边 + 视觉快照缓存"的三层混合空间表示方案:

第一层:层级场景图(核心骨架)。 参考SG-Nav和SayPlan的设计,构建room-zone-object三层结构。节点属性包含语义类别、自然语言描述、CLIP embedding、置信度分数。节点间的边编码三种空间关系(参考SR-Nav):拓扑关系(包含、连通)、方向关系(前后左右)、距离关系(近/中/远的粗略量化)。这种表示不依赖绝对坐标,而是用相对空间关系描述物体和区域之间的关系。

第二层:拓扑连接索引(导航支撑)。 在场景图之上维护区域间的拓扑连接关系(哪些区域可以直接通行),支持Dijkstra等经典路径规划算法。参考SayPlan的pose节点序列设计,保留轻量级的度量信息(如区域间的步数/距离估计)以支持路径长度估算。

第三层:视觉快照缓存(精细推理)。 参考3D-Mem的Memory Snapshot设计,为每个功能区域维护一张信息密度最高的代表性快照图像。通过Co-Visibility Clustering算法选帧,确保每张快照覆盖该区域的关键物体。当Planner需要精细空间判断时(如"沙发前方是否有足够空间"),回退到视觉快照让VLM直接推理。

9.2 推荐的Planner消费接口

Planner应通过以下接口消费空间信息:

主接口:分层文本序列化。 将场景图序列化为层级JSON,参考SayPlan的collapse-expand机制实现按需展开。默认情况下只暴露room级别的拓扑结构和当前所在room的详细内容,Planner可以通过API调用展开其他room的内容。每个物体节点的序列化格式为:{id, category, description, spatial_relations: [{target, relation_type, direction, distance}], zone, room}

辅助接口:相对空间查询API。 参考VLMaps的导航原语设计,封装一组空间查询函数:get_objects_in(room/zone)get_relation(objA, objB)(返回方向和距离)、get_path_between(roomA, roomB)(返回拓扑路径)、get_nearest(category, reference_object)

回退接口:视觉快照推理。 当文本序列化的空间信息不足以支持决策时,Planner可以请求调取特定区域的视觉快照,让VLM在图像上直接推理。

9.3 风险与注意事项

  1. VLM空间认知能力的天花板(SPACE Benchmark)。 不能过度依赖VLM的空间推理能力。凡涉及"如果我在A处面向B,C在我的什么方向"这类推理,必须由专门的几何计算模块处理,不能委托给VLM。
  2. 场景图的信息过载风险(HRON)。 HRON的实验表明:朴素引入场景图(无注意力机制)的SR(0.458)甚至低于不使用场景图(0.586)。务必配备任务驱动的注意力或过滤机制。
  3. 感知质量的级联效应(ESCA)。 69%的失败来自感知错误——一个错误的物体检测会导致场景图中出现错误节点,进而导致错误的空间关系推断,最终导致规划失败。
  4. 定量空间估计的不可靠性(SpatialVLM)。 VLM的距离估计仅37.2%在GT的半到两倍范围内。不要基于VLM的距离估计做精确运动控制。
  5. LLM空间先验的局限性(SR-Nav在MP3D上的表现)。 当物体类别增多时LLM生成的空间关系先验质量会下降。需要设计先验置信度衰减机制。
  6. 在线构建的实时性挑战。 真机部署时的计算延迟可能成为瓶颈。需要考虑采用异步更新策略。
论文精读

ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning

方向1: 语义地图 方向5: 代表性系统 2024 真机部署
Qiao Gu et al. · ICRA 2024 · University of Toronto, MIT et al.

一句话定位

ConceptGraphs提出了一种基于2D基础模型(SAM、CLIP、LLaVA、GPT-4)构建开放词汇3D场景图的方法,将场景表示为以物体为节点、空间关系为边的图结构,并通过将场景图序列化为JSON文本供LLM消费,实现了导航、操控、定位等多种下游机器人任务的统一规划。

核心方法

ConceptGraphs要解决的核心问题是:如何为机器人构建一种语义丰富、结构紧凑、支持开放词汇查询的3D场景表示,使其能够同时服务于感知和规划任务。

ConceptGraphs的方法管线分为三个阶段:

阶段一:基于物体的3D建图。 系统接收一系列带有位姿的RGB-D帧。对每一帧RGB图像,使用类无关的分割模型(SAM)获得候选物体掩码。每个掩码区域通过CLIP图像编码器提取语义特征向量,同时利用深度信息将掩码区域反投影到3D空间,经DBSCAN去噪后得到物体点云。关键步骤在于跨视角的物体关联:系统计算新检测物体与地图中已有物体的几何相似度和语义相似度,采用贪心匹配策略,若最高相似度超过阈值则融合,否则初始化新物体节点。

阶段二:节点描述与场景图构建。 所有帧处理完毕后,对每个物体节点选取贡献点数最多的10个最佳视角,将裁剪图像送入LLaVA生成初步描述,再由GPT-4汇总为最终标签和描述。边的生成基于物体间3D包围盒IoU构建连接候选,通过最小生成树剪枝得到精简的边集合,再由LLM根据物体描述和3D位置推断语义空间关系。

阶段三:LLM规划接口。 将场景图序列化为JSON列表,每个条目包含物体ID、包围盒尺寸、包围盒中心坐标、物体标签和描述。用户以自然语言提出任务查询,LLM解析场景图文本后输出结构化JSON响应。

空间表示方式

节点设计: 每个节点对应场景中的一个物体实例,包含3D点云、CLIP语义特征向量、物体标签、物体描述、3D包围盒尺寸和中心。

边设计: 边连接空间上邻近的物体对,表示语义空间关系。关系类型是开放词汇的,包括几何空间关系和功能性关系。

关键图示

ConceptGraphs完整管线流程图
ConceptGraphs完整管线流程图:展示从RGB-D序列输入,经开放词汇分割、特征提取、跨视角物体关联与融合,构建增量式3D物体地图,再由LLM推断空间关系生成场景图的全流程。
ConceptGraphs系统能力总览
ConceptGraphs系统能力总览:展示了构建的3D场景图及其多种表示维度,以及多种下游任务的实机演示。

关键实验结果

场景图构建质量(Replica数据集,人工评估)

变体节点精度(avg)有效物体数(range)重复检测(range)边精度(avg)
CG0.7123-600-50.88
CG-D0.6124-600-40.91

文本查询物体检索(R@1)

查询类型数据集CLIP检索LLM检索
描述性Replica0.590.61
功能性Replica0.430.57
否定式Replica0.260.80
描述性Lab1.001.00
功能性Lab0.401.00
否定式Lab0.001.00

设计启示

可借鉴: 场景图作为空间表示的核心范式;JSON序列化供LLM消费的接口设计;开放词汇的模块化架构。

局限: 扁平图结构缺乏层级;离线建图为主;空间关系表达较粗糙;对小物体鲁棒性不足。

VLMaps: Visual Language Maps for Robot Navigation

方向1: 语义地图 2023
Chenguang Huang et al. · ICRA 2023

一句话定位

VLMaps 将预训练视觉-语言模型(LSeg/CLIP)的 dense pixel embedding 反投影融合到 3D 重建的俯视栅格地图中,使地图每个栅格天然具备开放词汇的语言可查询能力,从而支持 LLM 生成代码直接在地图上定位空间目标并执行零样本导航。

核心方法

地图构建: 对每帧RGB图像使用LSeg提取逐像素embedding,利用深度图反投影到俯视栅格地图,每个栅格存储融合后的C维embedding向量。

开放词汇定位: 将文本标签编码为CLIP向量,与地图embedding做矩阵乘法取argmax即可得到语义分割结果,完全不需要训练。

零样本导航: LLM(Codex)将自然语言指令翻译为Python代码,调用17个预定义导航原语API查询VLMap定位坐标。

关键图示

VLMaps系统总览
VLMaps系统总览:左半部分展示VLMap构建过程(RGB -> LSeg embedding -> 栅格融合),右半部分展示开放词汇地标索引过程。

关键实验结果

Multi-Object Navigation 成功率 (%)

方法连续1个连续2个连续3个连续4个独立子目标
LM-Nav2641126
CoW42157336
VLMaps (ours)5934221559
GT Map (上界)9178716785

Top-Down Map 语义分割指标

指标CoW MapVLMaps
Pixel Accuracy66.192.3
Mean Accuracy9.627.7
mIOU5.719.0
Freq. Weighted mIOU42.985.9

设计启示

Embedding地图作为空间表示基础设施是可行的;Code as Policies的Planner范式值得借鉴;但2D俯视栅格丢失了高度信息,需考虑3D表示。

CLIP-Fields: Weakly Supervised Semantic Fields for Robotic Memory

方向1: 语义地图 2023 真机部署
Nur Muhammad Shafiullah et al. · RSS 2023 · NYU, FAIR Labs

一句话定位

用隐式神经场(Instant-NGP)将 CLIP 和 Sentence-BERT 的语义 embedding 编码到 3D 空间坐标上,构建无需人工标注、支持开放词汇自然语言查询的 3D 语义空间记忆。

核心方法

模型采用 Instant-NGP 的 Multi-resolution Hash Encoding 将 (x,y,z) 坐标映射为144维中间表示,之上连接语义头(768维,对齐SBERT空间)和视觉头(512维,对齐CLIP空间)。训练使用contrastive loss,仅依赖预训练模型(CLIP + Detic + SBERT)提供弱监督信号。

关键图示

CLIP-Fields数据集创建流程
数据集创建流程:从RGB-D帧到训练数据的完整pipeline,左侧分支通过深度图反投影为3D点云,右侧通过Detic检测和CLIP/SBERT提取embedding。

关键实验结果

真实机器人实验(Hello Robot Stretch)

查询类型测试场景成功率
Literal queriesKitchen (6 queries)5/6 (83%)
Visual queriesKitchen (7 queries)6/7 (86%)
Semantic queriesKitchen (7 queries)5/7 (71%)

设计启示

连续embedding空间优于离散标签;隐式表示轻量但不支持增量更新,不适合在线场景;多模态弱监督的成功验证降低了数据收集成本。

SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs

方向2: 空间认知 2024
Yang Miao et al. · ECCV 2024 · ETH Zurich, Google, TU Munich

一句话定位

以3D scene graph(而非大规模图像数据库)作为环境地图表示,通过跨模态contrastive learning将查询图像patch与场景图节点匹配,实现存储量降低1000倍、速度提升1000倍的粗定位。

核心方法

场景图侧用五种模态(Point Cloud、Image、Structure、Relationship、Attribute)编码节点;查询侧将图像分为patch grid用DINOv2提取特征。训练采用双向N-pair contrastive loss,推理时计算patch-to-node匹配距离的平均值作为相似度分数。

关键图示

SceneGraphLoc系统概览
SceneGraphLoc系统概览:查询图像的patch与scene graph database中的节点进行匹配,实现memory-efficient的粗定位。

关键实验结果

方法R@1 (10场景)R@1 (50场景)存储 (MB)
SceneGraphLoc (含图像)81.569.35.4
CVNet79.266.5239.1
AnyLoc87.980.65720.3

设计启示

场景图作为轻量地图表示极具前景(5.4MB vs 5720.3MB);但仅支持room-level粗定位,需后续精定位补充;对场景图构建质量高度依赖。

RoboHop: Segment-based Topological Map Representation for Open-World Visual Navigation

方向2: 空间认知 2024 真机部署
Sourav Garg et al. · ICRA 2024

一句话定位

纯拓扑的segment-as-node地图表示,以图像segment为节点、以帧内/帧间关联为边构建拓扑图,完全不依赖度量坐标即可支持open-vocabulary查询驱动的导航。

核心方法

帧内边通过Delaunay三角剖分建立空间邻接;帧间边通过DINOv2描述子匹配建立跨帧持续性。导航规划使用Dijkstra算法,边权设计巧妙:帧间边权重=0(鼓励沿segment track前进),帧内边权重=1(跳跃有代价)。

关键图示

RoboHop系统流程
RoboHop系统流程:上半部分展示建图过程(SAM分割 -> 语义预处理 -> 拓扑图),下半部分展示规划与导航。

设计启示

纯拓扑表示的可行性验证;帧内/帧间双重边设计与类人空间认知高度吻合;零样本、无需训练的轻量部署方案;但segment-level数据关联鲁棒性(DINO实例识别仅56%)可能成为瓶颈。

Does Spatial Cognition Emerge in Frontier Models?

方向2: 空间认知 2025
Santhosh Kumar Ramakrishnan et al. · ICLR 2025 · Apple

一句话定位

SPACE benchmark系统性评估前沿LLM/VLM的空间认知能力,结论是当前模型在空间认知上远未达到动物水平,在多项经典认知科学测试中接近随机水平。

关键图示

SPACE Benchmark总览图
SPACE Benchmark总览图:将任务分为large-scale和small-scale两大类,涵盖五大认知维度,包含15项测试。

关键实验结果

大尺度空间认知结果

模型ObservationDirection Est.Distance Est.Map SketchRoute RetraceShortcutAverage
HumanEgo image82.883.296.6---
GPT-4oEgo image32.036.533.36.66.423.0
Claude 3.5 SonnetEgo image29.034.427.57.40.019.6
ChanceEgo image25.025.025.00.00.015.0

小尺度空间认知结果(纯文本呈现)

模型MRTPTTMPFBJLOSAttMCTCBTTSAddCSWMAvg
GPT-4o41.955.550.566.598.821.582.593.576.765.2
Claude 3.537.550.045.070.597.010.097.591.582.064.5
Chance25.025.025.025.025.00.025.025.033.023.1

设计启示

核心警示:当前VLM不具备可靠的空间认知能力。必须构建显式外部空间表示。文本/符号表示效果显著优于视觉表示(Claude 3.5: 文本64.5% vs 多模态43.8%)。VLM在selective attention上表现良好,可用于物体检测/定位类任务。

SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning

方向3: Planner消费 2023
Krishan Rana et al. · CoRL 2023

一句话定位

利用3D Scene Graph的层级结构,通过collapse-and-expand语义搜索机制和iterative replanning管线,使LLM能够在大规模环境中进行可扩展的机器人任务规划,token压缩高达86.9%。

核心方法

第一阶段:Semantic Search。 将完整图折叠到最高层级,LLM通过expand/contract API交互式探索图结构,找到任务相关子图。

第二阶段:Iterative Replanning。 LLM生成任务计划,Scene Graph Simulator验证可执行性,反馈错误信息,LLM据此修正。

关键图示

SayPlan整体框架
SayPlan整体框架:左侧Semantic Search阶段,右侧Iterative Replanning阶段。

关键实验结果

方法Simple CorrectnessSimple ExecutabilityLong-Horizon CorrectnessLong-Horizon Executability
LLM-As-Planner93.3%80.0%66.7%13.3%
LLM+P93.3%13.3%33.3%0.0%
SayPlan93.3%100.0%73.3%86.6%

设计启示

层级化信息管理思路直接适用于多楼层场景;iterative replanning将可执行率从13.3%提升到86.6%;JSON序列化和Memory列表机制可直接复用。

SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation

方向3: Planner消费 2024
Hang Yin et al. · NeurIPS 2024 · 清华大学

一句话定位

将在线构建的层级3D scene graph(object-group-room三层)通过hierarchical chain-of-thought prompting让LLM逐层推理目标位置,在三个benchmark上以zero-shot方式超越所有此前zero-shot甚至部分supervised方法。

关键图示

SG-Nav完整Pipeline
SG-Nav完整Pipeline:从RGB-D输入在线构建层级scene graph和occupancy map,通过hierarchical CoT prompting LLM输出概率。

关键实验结果

MethodSettingMP3D SRHM3D SRRoboTHOR SR
SemEXPSupervised36.0--
L3MVNZero-shot34.948.741.2
VLFMZero-shot36.252.442.3
SG-Nav-GPTZero-shot40.254.047.5

CoT Prompting 消融

Prompting MethodSR
Text prompting(扁平文本)36.5
Hierarchical CoT(完整)40.2

设计启示

层级场景图比扁平物体列表更有效(+3.7 SR);Re-perception机制值得借鉴;在线增量构建的工程可行性已验证;层级CoT是planner消费结构化地图的有效范式。

MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation

方向3: Planner消费 2024
Jiaqi Chen et al. · ACL 2024 · The University of Hong Kong, Sun Yat-sen University

一句话定位

将在线构建的拓扑地图转化为纯自然语言(linguistic-formed map)注入LLM prompt,配合adaptive path planning,使GPT-4V在VLN任务中实现zero-shot的全局路径规划。

关键图示

MapGPT系统架构
MapGPT系统架构:展示prompt system模块组成和map-guided prompting的具体prompt格式。

关键实验结果

消融实验(R2R, GPT-4V)

MapPlanningSRSPL
NoneNone42.634.7
CoordinateNone41.2 (下降)32.8
TopologicalNone44.936.5
TopologicalAdaptive47.738.1

核心发现:坐标地图让性能下降,拓扑地图带来提升。这直接支持了从绝对坐标向相对空间关系转型的决策。

设计启示

纯文本拓扑地图的可行性已验证;LLM更擅长理解符号化拓扑关系而非数值坐标;Adaptive Planning机制(生成计划-执行-观察-更新计划)值得借鉴。

MapNav: A Novel Memory Representation via Annotated Semantic Maps for VLM-based Navigation

方向3: Planner消费 2025
Lingfeng Zhang et al. · ACL 2025 · HKUST(GZ), BAAI, 清华, 北大

一句话定位

提出用带文字标注的语义顶视图(ASM)作为VLM的空间记忆表征,思路具有启发性,但实际复现效果远低于论文报告数值。

关键图示

MapNav框架总览
MapNav框架总览:当前RGB观测和ASM分别经Visual Encoder和Map Encoder编码,通过各自的Projector映射后,由VLM直接输出导航动作。

关键实验结果

不同地图表示对比 (R2R-CE Val-Unseen)

地图类型SR (%)SPL (%)
无地图27.323.2
原始顶视图26.421.9
语义地图 (无文字)29.124.5
ASM (语义 + 文字标注)36.534.3

以上为论文报告数据。实际复现中,ASM方案的效果远低于上述数字,论文的实验设置和数据处理存在不够透明之处。

设计启示

"在语义地图上叠加文字标注"的方向本身是合理的——文字标注能激活VLM预训练中学到的"物体-语言"关联知识。但MapNav的具体实现方案可复现性差,工程落地需重新设计标注策略和训练流程,不宜直接采信论文报告的性能数据。本文更适合作为思路参考。

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

方向4: 空间关系 2024
Boyuan Chen et al. · CVPR 2024 · Google DeepMind

一句话定位

通过自动化数据生成流水线合成20亿条spatial VQA数据来训练VLM,使其同时具备定性空间判断和定量距离估计能力。

关键图示

SpatialVLM数据合成流水线
数据合成流水线全景图:从语义过滤、2D上下文提取、2D到3D提升、歧义消解到QA合成的完整流程。

关键实验结果

实验指标关键发现
定性空间VQAAccuracySpatialVLM 75.2% vs GPT-4V 68.0% vs LLaVA-1.5 71.3%
定量空间VQA有效数值比例SpatialVLM 99.0% vs GPT-4V 1.0%(GPT-4V几乎拒绝输出距离)
定量精度[50%,200%]范围SpatialVLM 37.2%(精度有限)

设计启示

定性空间推理可行(75.2% accuracy),但定量距离估计精度有限(仅37.2%在合理范围)。建议系统以定性空间关系为主,保留深度相机作为定量补充。Chain-of-Thought空间推理可作为Planner的空间查询子模块。

SR-Nav: Spatial Relationships Matter for Zero-shot Object Goal Navigation

方向4: 空间关系 2026
Leyuan Fang et al. · 湖南大学

一句话定位

以目标物体为中心的动态空间关系图(DSRG),将LLM生成的经验性空间先验与在线感知观测动态融合,同时赋能感知校正(RAMM)和导航规划(DRPM),在HM3D上达到零样本目标导航SOTA。

关键图示

SR-Nav系统总览
SR-Nav系统总览:展示DSRG的离线初始化与在线更新流程,以及RAMM和DRPM两个核心模块的协同工作。

关键实验结果

关系类型消融

去除的关系类型SR (%)SPL (%)
w/o Distance56.031.5
w/o Direction57.332.6
w/o Topology52.730.5
Full (Ours)58.333.0

拓扑关系影响最大(SR降5.6%),距离次之(降2.3%),方向最小(降1.0%)。SR-Nav推理速度比SG-Nav快8.7倍。

设计启示

三维空间关系编码(拓扑+方向+距离)可直接复用;LLM先验+在线更新的双源融合策略提供零样本泛化的"冷启动"能力;RAMM的关系匹配纠错机制有直接工程价值。

Task-Driven Graph Attention for Hierarchical Relational Object Navigation

方向4: 空间关系 2023
Michael Lingelbach et al. · ICRA 2023 · Stanford University

一句话定位

提出HRON任务,利用场景图结合异构图变换器(HGT)和任务驱动注意力机制,使智能体能根据层次化关系约束(object-furniture-room)高效导航。

关键图示

HRON模型架构
HRON模型架构:场景图经HGT和任务驱动注意力池化生成图嵌入,与RGB/Depth特征和目标描述融合后由PPO输出导航动作。

关键实验结果

Exploratory Object Navigation

模型SRSPL
RGB-D only0.5860.309
RGB-D + MM (2D语义地图)0.5540.273
RGB-D + SG (无注意力)0.4580.183
RGB-D + SG + TD ATTN0.8790.577

关键发现:朴素引入场景图(无注意力)甚至不如纯RGB-D,加入任务驱动注意力后SR从0.458跃升至0.879。场景图+注意力远超2D语义地图(0.879 vs 0.554)。

设计启示

层次化关系定义(onTop/inside/under/inRoom/roomConnected)可直接借鉴;任务驱动注意力是必不可少的信息过滤机制;场景图优于度量地图的定量证据。

3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

方向5: 代表性系统 2025
Yuncong Yang et al. · CVPR 2025 · UMass Amherst, CUHK, MIT

一句话定位

用精选的多视角快照图像(Memory Snapshots + Frontier Snapshots)替代3D scene graph作为具身智能体的场景记忆,让VLM直接在视觉图像上推理空间关系。

关键图示

3D-Mem系统总览
3D-Mem系统总览:已探索区域由Memory Snapshots表示,未探索区域由Frontier Snapshots表示。

关键实验结果

Active Embodied Question Answering (A-EQA)

MethodLLM-MatchLLM-Match SPL
CG Scene-Graph Captions34.46.5
Explore-EQA46.923.4
3D-Mem (Ours)52.642.0

GOAT-Bench (Lifelong Navigation)

MethodSuccess RateSPL
CG w/ Frontier Snapshots61.545.3
3D-Mem (Ours)69.148.9

设计启示

视觉快照在精细空间推理上优于文本化场景图(spatial understanding: 43.4 vs 32.9);但场景图在跨区域推理和快速检索上不可替代;"场景图作为骨架索引 + 视觉快照作为感知缓存"是最佳混合架构。

ESCA: Contextualizing Embodied Agents via Scene-Graph Generation

方向5: 代表性系统 2026
Jiani Huang et al. · NeurIPS 2025 · UPenn, UCF, JHU

一句话定位

通过将结构化的spatial-temporal scene graph注入MLLM-based具身智能体的感知pipeline,将感知错误率从69%降至30%,使开源模型超越闭源模型基线。

关键图示

ESCA错误分解分析
ESCA错误分解分析:无ESCA时69%的失败来自Perception,加入ESCA后降至30%。
ESCA整体pipeline
ESCA整体pipeline:从Concept Extraction到SGClip生成Scene Graph,最后通过Transfer Protocol注入Task Planning。

关键实验结果

错误分解分析(核心发现)

配置Perception ErrorReasoning ErrorPlanning Error
InternVL (base)69%11%20%
InternVL + ESCA30%26%44%

EB-Navigation 性能(成功率%)

模型Base+ GD+ ESCA
InternVL-2.5-38B47.3347.6751.66
GPT-4o51.3353.3354.67

InternVL-2.5(开源38B)+ ESCA的成绩(51.66%)超越了GPT-4o base(51.33%),证明结构化感知增强可以弥补模型规模的差距。

设计启示

核心启示:投入改善感知的ROI远高于改善规划(69%失败源于感知);Selective Grounding策略是必要的(完整注入可能降低性能);开源模型+结构化感知可超越闭源模型。