논문 링크: https://arxiv.org/abs/2212.08051
깃허브 링크: https://github.com/allenai/objaverse-xl
[2D-vision]
- LVIS
- ImageNet
- MS COCO
- YFCC100M
- OpenImages
- Conceptual Captions
- WIT
- LAION
[3D-vision]
- Objaverse
- KIT
- YCB
- BigBIRD
- IKEA
- Pix3D
- EGAD
그간 컴퓨터 비전 모델 학습을 위한 데이터는 갈 수록 다양해지고, 큰 규모를 가지게 되었다. 그러나 이 같은 데이터셋의 증대 현상은 2D images에만 국한되었다. 2D에 비해 3D model들을 제공하는 데이터셋들은 scale, diversity, realism 면에서 다소 퀄리티가 낮은 것이 실정이었다. 이에 이러한 문제점을 개선하고자 제작된 데이터셋이 바로 objaverse이다. 본 논문에서 소개된 objaverse 1.0의 경우, 800K개가 넘는 데이터들을 가지고 있으며, 가장 최근에 공개된 objaverse-XL의 경우는 10M개 이상의 데이터를 제공하고 있다. objaverse는 다양하고 큰 규모의 3D 데이터셋을 제공할 뿐만 아니라, embodied-AI의 학습, segmentation task의 long-tail problem 개선, vision 모델의 robustness를 평가하는 새로운 벤치마크의 제안, 3D 생성 모델의 성능 개선 등 다양한 측면에서 3D vision 모델 발전에 기여하고 있다.
objaverse는 Sketchfab에서 제공하는 object들로 구성되어 있으며, 초기 annotation 및 metadata 또한 Sketchfab에서 상속한다. 이 metadata에는 객체명, 카테고리들, 형식 제한이 없는 태그들, 자연어 설명 등이 포함된다. 하지만 이는 18개의 카테고리에만 제한되어 있고, 모호성이 크기 때문에 다른 task에 활용하기는 어렵다. 때문에 objaverse는 다음과 같은 라벨링 방식을 활용한다.
1) LVIS (Large Vocabulary Instance Segmentation) 데이터셋의 카테고리 중 1,156개 가량을 활용한다.
2) 범주화의 경우, 각 카테고리 당 CLIP 모델을 통한 분류 및 메타데이터 내 단어 추측으로 500개의 후보 object들을 선별한 뒤, crowdworker의 검증으로 최종 범주화를 진행한다.
objaverse는 animated objects, rigged characters, articulated objects (기존 object를 분리하여 각각 새로운 object로 사용, ex: 의자 -> 의자 손잡이, 의자 등받이 등등), Exteriors and Interiors 등 다양한 종류와 형태의 object들을 제공한다. 동일한 객체이더라도 style을 달리한 객체들을 여러 개 생성하여 다양성을 제고하고 있다.
참고: 3D Generative Model
- GET3D 모델: NVIDIA에서 개발한 3D 생성 모델로, 2D 이미지나 영상으로부터 3D 모델을 실시간 생성 및 조작하는데 쓰이는 기술이다. GET3D는 기하학적 특징과 텍스처 특징을 추출하는 두 개의 입력 벡터를 사용한다. 두 입력 벡터는 Mapping Network (MLP)를 통해 고차원의 latent vector로 변환된다. 이후 하나의 벡터는 DMTet을 통해 3D Tetrahedral 메쉬로 변환하고, 나머지 하나는 텍스처 생성기를 거쳐 형상에 따라 RGB 값이 매칭된다. 그리고 합쳐진 3D 모델을 미분 가능한 renderer를 통해 2D 이미지로 렌더링한다. 이 과정은 GAN 기술을 통해 최적화 된다.
objaverse는 스케일과 다양성 측면에서 빈약했던 기존의 3D 데이터셋의 단점을 크게 개선한 데이터셋이다. 또한 단순히 3D vision 모델 학습에만 쓰이는 것이 아니라, RL, 2D segmentation 등 다양한 방면에 응용될 수 있기에, 그 활용도가 높다고 볼 수 있다.