3D가 AI에서 중요한 이유
그렇다면 우리는 3D를 어떻게 관찰하고 인지할 수 있을까?
3D를 2D로 변환하여 관찰하는데 이를 projection이라 한다.
e.g. 에펠탑을 관찰하기 위해 사진을 찍어 2D로 표현
약 51,300개로 large scale dataset으로, 각 object들은 가상으로 만들어졌다.
PartNet
shapenet의 개선 버전으로 fine-grained dataset이다.
각 object들의 part instance 까지 구분이 되어있어 segmentation에 유용한 데이터셋이다.
Scenenet
5백만 개의 RGB-Depth의 실내 영상 데이터 셋이다.
ScanNet
마찬가지로 RGB-Depth로 되어있는 데이터 셋으로, 250만 개의 view로 구성되어 있다.
Outdoor 3D scene datasets
2D CNN을 사용해서 label정보를 출력하는 형태와 비슷하며, Volumetric CNN을 사용하여 Cat이라는 label하나를 출력한다.
3D object localization은 이미지와 3D에서 모두 진행할 수 있다.
input 이미지가 주어지면 image detection을 하고, 이 detection에 대해 3D mesh로 reconstruction할 수 있다.
3D object를 조금 더 정교하게 sub-problems로 분해하여 구성하는 방법