매 frame마다 단일 image에서의 3D human pose estiamtor를 inference?
단일 image에서는 주변 frame의 정보를 활용할 수 없음 (depth ambiguity, motion blur 등)
⇒ temporal module(LSTM, GRU, GraphCNN, Transformer..) 즉 여러 시간대에서 오는 정보를 조합해주는 모듈
같은 training 데이터 셋을 사용할 경우 video 기반 방법들이 성능이 더 좋음
in-the-wild video 데이터 셋(annotation이 어려워 데이터 셋이 거의 없음, posetrack instavariety)
보통 E2E 학습이 가능한 video 기반 3D pose estimation 모델은 input을 2D pose sequence로 받게됨
단일 image 기반의 3d pose estimation network를 단일 image dataset에 미리 pre-train해두고, video에 단일 image 3d pose estimation network를 돌려서 image feature를 얻어놓고(예를 들어 Resnet이라면 global average pooling을 통해) vector화 시킴 그 vector를 저장해두고, 그걸 입력으로 사용
단 단일 image 기반의 3d pose estimation network의 backbone은 freezing 되어있음 image feature vector는 이미 추출해두었으니까 ⇒ E2E, data augmentation 불가