SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation

sherry·2025년 8월 16일

1. Introduction

기존의 방법들은 특정 dataset에서만 잘하도록 학습이 되기 때문에, zero-shot object navigation이 중요함. 그래서 Open world knowledge가 있는 LLM을 가져다 쓰는데 얘네의 문제는
1) 각 지점에서 가까이 있는 물체들을 text로 찾아내기만 해서 공간적인 정보가 빠짐
2) 각 지점마다 가능성에 대해서 LLM을 활용하고 있기 때문에 LLM의 reasoning 능력을 온전히 사용X
따라서 본 논문에서는 hierarchical 3D Scene graph를 만들고 이를 활용하여 설명 가능한 decision making을 만드는 SG-Nav를 제시하였다.
Scene graph에는 많은 node들이 있기 때문에, 새롭게 감지된 node들을 densley 연결하였다.

3 Approach

Problem Definition

agent가 RGB-D video를 streaming으로 받으면서 object o를 향해 가야함 (category c가 주어진 상태로)

3.2 Online 3D Scene Graph Construction

Hierarchical 3D Scene Graph

a) 서로 다른 수준(level)의 노드 연결
장면 그래프에는 보통 room (방), object (객체), group (객체 그룹) 같은 여러 수준의 노드가 있음.

높은 수준 노드 ↔ 낮은 수준 노드 연결:

room ↔ object:
객체가 방에 속하는지 확인.
→ 객체의 인스턴스 마스크(instance mask)가 방의 인스턴스 마스크 안에 포함되면 연결.

room ↔ group:
그룹 내 모든 객체가 방에 속하면 연결.

group ↔ object는 별도로 연결하지 않음
→ 그룹은 이미 객체를 기반으로 등록되기 때문.

b) 같은 수준(level)의 노드 연결 (intra-level)
object ↔ object: 관련 객체끼리 연결.

새로운 객체가 등록되면 모든 기존 객체와 우선 밀집 연결(dense connect)

이후 pruning을 통해 정보가 적은 엣지는 제거.

group ↔ group, room ↔ room은 intra-level 연결 없음.

Input으로 streaming RGB-3D Video를 받는 agent가 task 수행을 위해 어디로 가야할지 결정

sherry

Es muss sein!

이전 포스트

LLaVA-SG: Leveraging Scene Graphs as Visual Semantic Expression in Vision-Language Models

다음 포스트