관련 지식 없이 읽기가 어려워 overview 정도로만 읽고 다시 리뷰해보려 한다. 일단은 frankmocap이 뭔지 정도만 간단히 알아보는 정도로...
기존의 monocular 3D pose estimation은 한 신체 부위에만 초점을 맞춘다. 해당 논문에서는 FrankMocap, 즉 빠르고 정확한 whole-body 3D pose estimation system을 통해 3D 얼굴, 손, 신체를 동시에 생성한다.
FrankMocap의 아이디어는 모듈식 설계이다. 얼굴, 손, 몸에 대한 3D pose regression을 독립적으로 실행하고(독립적 regression 모듈은 SOTA 성능임) 이를 통합 모듈을 통해 구성한다.
latency와 accuracy를 절충하는 3가지 통합 모듈을 개발했다. 셋 모두 분리된 출력을 완벽한 whole-body pose estimation 결과로 통합한다.
FrankMocap은 optimization-based와 end-to-end 방법 모두를 뛰어넘는 성능을 가진다
단일 RGB 이미지에서 3D human pose를 추정하는 것 다양하게 쓰이는(수화 이해, AR/VR 등) 기술이다. 중요한 것은 인간 행동의 본질적 뉘앙스가 얼굴, 손, 몸의 미묘한 움직임의 조화를 통해 전달 된다는 것이다. 따라서 전신 동작을 추정해야한다.
전신 3D pose 추정이 어려운 이유
따라서 대부분 신체 부위 중 하나에 개별적으로 초점 맞춤
단일 RGB 이미지에서 3D human pose를 추정하는 것 다양하게 쓰이는(수화 이해, AR/VR 등) 기술이다. 중요한 것은 인간 행동의 본질적 뉘앙스가 얼굴, 손, 몸의 미묘한 움직임의 조화를 통해 전달 된다는 것이다. 따라서 전신 동작을 추정해야한다.
전신 3D pose 추정이 어려운 이유
따라서 대부분 신체 부위 중 하나에 개별적으로 초점 맞춤
FrankMocap은 SMPL-X 형식의 통합된 출력으로 전신 3D pose를 추정하는 모듈러 시스템이다.
단일 모델로 전체 부분을 추정하는 것이 정확도와 전신 모션 데이터의 부족으로 인해 본질적으로 제한된다는 점을 기반으로 구축되었다.
대신 얼굴, 손, 신체에 대한 3D pose regression 방법을 독립적으로 실행하는 모듈 시스템을 설계했다. ⇒ 개별 회귀 모듈은 SOTA 성능!
세 회귀 출력은 통합 모듈을 통해 구성된다 ⇒ 간단하고 효과적임(interactive frame rate)
3D pose와 shape을 추정하기 전 강력하게 널리 쓰던 방법들. 낮은 차수 파라미터로 3D human(얼굴, 손, 몸을 포함)의 변형을 모델링하는 것이다.
최근 단안 3D body motion capture 방식은 3D body 표현을 위해 SMPL이나 Adam 같은 parametric model을 사용한다.
최근 방법은 딥러닝 프레임워크를 통해 RGB 이미지에서 신체 모델의 매개변수를 회귀한다.
non-parametric 방법들은 model vertice나 UV map을 직접 회귀한다.
2D heatmap과 같은 중간 표현을 생성한 후, 골격 모델에 피팅해 joint angle을 재구성하는 하이브리드 방법도 있다.
⇒ 데이터가 부족하므로 Human3.6M이나 COCO를 사용
최근 단안 3D hand pose estimation 방식은 MANO와 같은 parametric 3D hand model을 기반으로 한다.
심층 신경망으로 모델 매개변수를 예측하거나, hand mesh vertice를 직접 회귀함
single 3D face prediction 방법은 3DMM, FLAME과 같은 얼굴 모델의 랜드 마크나 매개변수를 회귀하기 위해 심층 신경망을 활용한다.
전신 3D motion을 캡쳐하는 것을 목표로하는 방법
⇒ 비교적 느림 (=최적화 절차에 의존)
단일 이미지가 입력되면 FrankMocap은 먼저 SMPL-X 모델 형식으로 얼굴, 손(왼손, 오른손), 몸(몸통과 팔다리)의 3D 포즈를 추정한다. 각 출력은 각 하위 분야의 공개 데이터로 학습한 별개의 3D pose regressor에 의해 생성된다. 출력은 통합 모듈로 합쳐지고 매끄럽고 통합된 whole-body pose estimation output으로 생성된다.