[Overview] FrankMocap : A Monocular 3D Whole-Body Pose Estimation System via Regression and Integration

먕먕·2022년 12월 19일

Human Pose Estimation NIA - 3D Skeleton data 논문_reading

관련 지식 없이 읽기가 어려워 overview 정도로만 읽고 다시 리뷰해보려 한다. 일단은 frankmocap이 뭔지 정도만 간단히 알아보는 정도로...

0. Abstract

기존의 monocular 3D pose estimation은 한 신체 부위에만 초점을 맞춘다. 해당 논문에서는 FrankMocap, 즉 빠르고 정확한 whole-body 3D pose estimation system을 통해 3D 얼굴, 손, 신체를 동시에 생성한다.

FrankMocap의 아이디어는 모듈식 설계이다. 얼굴, 손, 몸에 대한 3D pose regression을 독립적으로 실행하고(독립적 regression 모듈은 SOTA 성능임) 이를 통합 모듈을 통해 구성한다.

latency와 accuracy를 절충하는 3가지 통합 모듈을 개발했다. 셋 모두 분리된 출력을 완벽한 whole-body pose estimation 결과로 통합한다.

FrankMocap은 optimization-based와 end-to-end 방법 모두를 뛰어넘는 성능을 가진다

1. Introduction

단일 RGB 이미지에서 3D human pose를 추정하는 것 다양하게 쓰이는(수화 이해, AR/VR 등) 기술이다. 중요한 것은 인간 행동의 본질적 뉘앙스가 얼굴, 손, 몸의 미묘한 움직임의 조화를 통해 전달 된다는 것이다. 따라서 전신 동작을 추정해야한다.

전신 3D pose 추정이 어려운 이유

얼굴과 손의 크기가 몸통과 팔다리보다 매우 작음
손을 움직이면 갑작스러운 시점 변경, self-occlusion, 모션 블러 발생
위의 요소로 인한 데이터 세트 생성 어려움 증가 → 전신 3D 데이터 부족

따라서 대부분 신체 부위 중 하나에 개별적으로 초점 맞춤

1. Introduction

전신 3D pose 추정이 어려운 이유

얼굴과 손의 크기가 몸통과 팔다리보다 매우 작음
손을 움직이면 갑작스러운 시점 변경, self-occlusion, 모션 블러 발생
위의 요소로 인한 데이터 세트 생성 어려움 증가 → 전신 3D 데이터 부족

따라서 대부분 신체 부위 중 하나에 개별적으로 초점 맞춤

FrankMocap은 SMPL-X 형식의 통합된 출력으로 전신 3D pose를 추정하는 모듈러 시스템이다.

단일 모델로 전체 부분을 추정하는 것이 정확도와 전신 모션 데이터의 부족으로 인해 본질적으로 제한된다는 점을 기반으로 구축되었다.

대신 얼굴, 손, 신체에 대한 3D pose regression 방법을 독립적으로 실행하는 모듈 시스템을 설계했다. ⇒ 개별 회귀 모듈은 SOTA 성능!

세 회귀 출력은 통합 모듈을 통해 구성된다 ⇒ 간단하고 효과적임(interactive frame rate)

주요 기여

whole-body pose 데이터 세트 부족을 해결하기 위해 기존 single-part pose 데이터 세트를 최대한 활용하고 regression-and-integration 아이디어를 제시함
개별 single-part pose 추정 모듈 출력을 통합하기 위해 세 효과적인 전략을 사용
1. copy-paste (가장 빠름)
2. full-optimization
3. intermediate approach (via simple integration network)
기존의 optimization-based, end-to-end보다 뛰어난 성능

3D Parametric Human Body Models (3D Parametric : 형상을 구성하는 요소들을 매개변수화하여 3D 모델링)

3D pose와 shape을 추정하기 전 강력하게 널리 쓰던 방법들. 낮은 차수 파라미터로 3D human(얼굴, 손, 몸을 포함)의 변형을 모델링하는 것이다.

SCAPE : 인체의 형태 변형(shape variation), 포즈 변형(pose deformation)
SMPL : 전체적 mesh 변형과 shape 변형을 위해 linear blend skinning 위의 local pose-dependent blendshape을 학습 (?? 더 공부하기)
MANO : 손 변형 모델
여러 얼굴 모델
얼굴을 표현할 수 있는 전신 모델 : Adam, SMPL-X, GHUM&GHUML

Single Image 3D Body, Hand and Face Estimation

최근 단안 3D body motion capture 방식은 3D body 표현을 위해 SMPL이나 Adam 같은 parametric model을 사용한다.

최근 방법은 딥러닝 프레임워크를 통해 RGB 이미지에서 신체 모델의 매개변수를 회귀한다.

non-parametric 방법들은 model vertice나 UV map을 직접 회귀한다.

2D heatmap과 같은 중간 표현을 생성한 후, 골격 모델에 피팅해 joint angle을 재구성하는 하이브리드 방법도 있다.

⇒ 데이터가 부족하므로 Human3.6M이나 COCO를 사용

최근 단안 3D hand pose estimation 방식은 MANO와 같은 parametric 3D hand model을 기반으로 한다.

심층 신경망으로 모델 매개변수를 예측하거나, hand mesh vertice를 직접 회귀함

single 3D face prediction 방법은 3DMM, FLAME과 같은 얼굴 모델의 랜드 마크나 매개변수를 회귀하기 위해 심층 신경망을 활용한다.

Joint 3D Estimation of Body, Hands and Face

전신 3D motion을 캡쳐하는 것을 목표로하는 방법

SMPLify-X : SMPL-X 모델의 매개변수를 최적화하여 body pose priors나 collision penalizer를 포함한 추가적 제약이 있는 2D keypoint에 맞춘다
MTC(Monocular Total Capture)는 Adam 모델을 기반으로 2.5D 예측을 위해 심층 신경망을 사용한다. 그 다음 최적화를 통해 Adam의 매개변술르 얻는다

⇒ 비교적 느림 (=최적화 절차에 의존)

3. Method

단일 이미지가 입력되면 FrankMocap은 먼저 SMPL-X 모델 형식으로 얼굴, 손(왼손, 오른손), 몸(몸통과 팔다리)의 3D 포즈를 추정한다. 각 출력은 각 하위 분야의 공개 데이터로 학습한 별개의 3D pose regressor에 의해 생성된다. 출력은 통합 모듈로 합쳐지고 매끄럽고 통합된 whole-body pose estimation output으로 생성된다.