
Hegde, Deepti, Jeya Maria Jose Valanarasu, and Vishal Patel. "Clip goes 3d: Leveraging prompt tuning for language grounded 3d recognition."
Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.










Object categories: 55
Total samples: 52,460
→ 각 object mesh에서 고정 크기의 point cloud를 샘플링하고 unit sphere에 적합하도록 normalize
2D: Blender에서 색이 칠해진 CAD 모델 뷰를 렌더링하여 각 포인트 클라우드에 대한 이미지 쌍을 얻음
3D: Input point cloud는 object scaling. rotation, random drop, and perturbations로 증강
Text: 각 point cloud-image pair의 text caption은 “A photo of a {OBJECT}”와 같은 standard template 형태로 구성














