-데이터 부족으로 주로 인간과 객체를 개별적으로 인식하지만, HOI는 다수의 인간과 다수의 객체와의 상호작용을 모델링하는 것
-이를 위한 데이터셋으로HOI-M3도 있음, 3D추적을 정확하게 제공하며 여러 인간과 객체를 다룬다.
HOI-M3논문 링크
-HOI 애니메이션 생성함, 전체적인 움직임이 더욱 현실적으로 보이도록 함
-단일 이미지만을 사용해서 그 이미지의 각 픽셀 간의 거리를 추정하는 작업 (사진 속 객체들이 카메라로부터 얼마나 떨어져있는지를 예측하는 것이 목표)
-diffusion model을 같이 사용하여 노이즈가 섞인 이미지를 조금씩 복원하면서 고품질 이미지를 생성하는 방식
monocular depth estimation with diffusion models 논문링크