3D 포인트와 텍스트 및 이미지 픽셀을 공동 임베딩(co-embedding)하는 방식레이블이 없는 3D 데이터로 작업하는 데 중점을 둔 내용레이블이 있는 3D 데이터셋에 의존하여 특정 과제를 수행하도록 학습CLIP 피처 공간에서 3D 포인트를 공동 임베딩하여 3D 장면을 이해하는 제로샷(zero-shot) 방법을 제안

OpenScene은 언어 기반의 특징을 사용하기 때문에,
사용 예

3D 포인트와 이 3D 포인트에 대응되는 이미지의 픽셀 정보, 그리고 해당 픽셀에 대응하는 텍스트 레이블(예: "chair")을 CLIP 모델의 피처 공간에 임베딩
2D 이미지 임베딩의 평균 값을 사용해 단일 3D 포인트 피처를 생성

