OpenScene: 3D Scene Understanding with Open Vocabularies

About_work·2024년 8월 20일

foundation model in robotics

목록 보기

11/14

CLIP을 활용하여 3D 포인트와 텍스트 및 이미지 픽셀을 공동 임베딩(co-embedding)하는 방식
- 새로운 종류의 질의에 대해 효과적으로 응답할 수 있는 모델을 제공
레이블이 없는 3D 데이터로 작업하는 데 중점을 둔 내용

1. 기존 3D 장면 이해 방법의 한계:
- 기존의 3D 장면 이해 접근법은 레이블이 있는 3D 데이터셋에 의존하여 특정 과제를 수행하도록 학습
- 그러나 이러한 방법은 학습된 데이터셋에 제한적이며, 새로운 과제나 드문 객체에 대한 이해가 어려움
1. OpenScene의 제안:
- OpenScene은 레이블이 없는 데이터로부터
  - CLIP 피처 공간에서 3D 포인트를 공동 임베딩하여 3D 장면을 이해하는 제로샷(zero-shot) 방법을 제안
- 이를 통해 사용자는 텍스트 질의를 통해 3D 장면에서 원하는 객체나 특징을 검색하고 시각화할 수 있음
1. 모델 구조:
- 이 모델은 다중 뷰(fusion)와 3D 컨볼루션을 결합하여 3D 포인트의 밀집 피처를 추출하고, 이를 기반으로 다양한 질의에 응답할 수 있음
- 예를 들어, 'soft'와 같은 단어로 3D 장면에서 소파나 침대와 같은 부드러운 표면을 찾을 수 있습니다.

OpenScene은 언어 기반의 특징을 사용하기 때문에,
- "부드러운", "주방", 또는 "작업"과 같은 예제 쿼리에 대해 라벨이 없는 3D 데이터로도 다양한 질문에 답할 수 있습니다.
사용 예
- 금속 재질이나, 유리 등을 판별하는데 쓸 수 있을수도 있다.
- 특정 공간을 찾을 수 있다. (주방, 업무 공간 등)

OpenScene 모델은 3D 포인트와 이 3D 포인트에 대응되는 이미지의 픽셀 정보, 그리고 해당 픽셀에 대응하는 텍스트 레이블(예: "chair")을 CLIP 모델의 피처 공간에 임베딩
T-SNE라는 기술을 사용해,
- CLIP 피처 공간에서 임베딩된 3D 포인트, 이미지 픽셀, 그리고 텍스트를 시각화했다는 뜻
T-SNE (t-distributed Stochastic Neighbor Embedding)
- 고차원의 데이터를 저차원으로 변환해 시각화하는 데 사용되는 기법
- 고차원 데이터의 구조를 2D 또는 3D 공간에서 시각적으로 이해하기 쉽게 만드는 데 사용

Multi-view Feature Fusion (다중 뷰 피처 융합):
- 3D 포인트 클라우드의 각 포인트는 여러 이미지의 픽셀들과 연결
- 이 단계에서는 3D 포인트가 여러 이미지에서 어떻게 나타나는지 정보를 통합하여
  - 2D 이미지 임베딩의 평균 값을 사용해 단일 3D 포인트 피처를 생성