RMPE : Regional Multi-Person Pose Estimation

Jiyeon Jeong·2021년 4월 25일

AlphaPose Paper - RMPE

연구실에서 진행중인 Fall Detection을 구현하기 위해 Pose Estimation을 진행하는 AlphaPose의 논문, RMPE를 읽고 이해한 부분만 간단하게 정리하였다.

여러 논문을 읽어왔지만, 여태 읽은 논문 중에서 제일 이해하기 힘들었고 아직 이해하지 못한 부분이 많아 흐름만 이해하고 넘어간 부분들도 존재한다. 본 논문을 정독한 이유는 연구중인 Fall Detection을 구현하기 위해 Pose Estimation의 흐름만 이해하고자 간단하게 살펴보았다.

1. Introduction

본 논문에서는 Two-step Framework를 따르며, 이는 후에 자세하게 설명한다. 그리고 부정확한 Bounding Box를 주어도 정확한 인간의 Pose를 감지하는 것이 본 논문의 목표이며 SPPE 기반 인간 Pose Estimation Algorithm의 성능 향상을 주된 목표로 잡았다.

위의 사진에서 붉은색 bounding box는 Ground Truth Box를 나타내며, 노란색 Bounding Box는 실제 IoU가 0.5이상인 Detection이 진행된 Box임을 알 수 있다. 위의 사진을 살펴보면 IoU가 50%이상이기 때문에 노랑색 Bounding Box도 올바른 Bounding Box로 인지하지만, 이러한 결과를 토대로 Pose Estimation을 진행하면 좋은 성능을 기대할 수 없다. 이러한 문제점을 본 논문에서는 개선시킬 것으로 보였다.

또 다른 문제점을 살펴보면, 위의 사진처럼 한 사람에 여러 Detection이 이루어져 중복됨을 확인할 수 있다. Bounding Box가 두 개 이상이며, 이는 한 사람에게 여러 개의 Pose Estimation이 진행되었음을 알 수 있다. 본 논문에서는 이러한 중복 문제점도 완화할 것을 언급하였다.

Single Person Pose Estimation

SPPE(Single Person Pose Estimation)은 이름에서도 알 수 있듯이, 한 사람의 Pose Estimation을 진행한다.
SPPE는 단순하므로 많은 모델들이 존재한다. 보통 SPPE를 사용할 때 인물의 위치가 정확해야 잘 수행된다는 가정이 있다. 하지만, 본 논문에서는 이러한 가정은 충족되지 않는다고 언급하였는데, 꼭 인물의 위치가 정확하지 않아도 잘 수행된다는 것을 전달하고 싶은 것 같다.
SPPE의 특징은 Localization Error에 많이 취약하다는 특징이 존재한다.

Multi Person Pose Estimation

MPPE(Multi Person Pose Estimation)은 여러 사람의 Pose Estimation을 진행한다.
MPPE에서는 두가지 Framework가 존재하는데, 첫 번째는 Part-based Framework로 간단하게 설명하면 인간을 신체 부위의 유연한 구성으로 모델링하는 그래픽 모델이라고 언급하였으며, 이는 가려진 사람들을 분석하는 접근법을 제시하였다. 이 Framework는 아주 좋은 성능을 입증했지만, Small Local Regions만 고려되기 때문에 신체 부분 Detection에서는 취약할 수 있다.

두 번째는 Two-step Framework이며 본 논문에서 사용하는 방법이다. 본 논문에서는 CNN 기반 SPPE 방법을 이용해 Pose Estimation을 진행하고, 후에 SPPE의 힘을 극대화 하기 위해 Two-step Framework에서 불완전한 인간 Detection Problem을 해결하는 것이 목표임을 언급하였다.

3. Regional Multi-person Pose Estimation

Pipeline

다음 RMPE의 전체적인 구조이다. 인간 Detection을 진행한 결과를 확인할 수 있으며 Bounding Box를 나타냄을 알 수 있다. 이 Bounding Box는 Symmentric STN + SPPE의 모듈로 공급되며 Pose Proposal을 자동으로 생성한다. 생성된 Pose Proposal은 Pose NMS에 의해 개선되어 제대로 추정된 인간의 Pose를 얻을 수 있다.
그리고 Training하는 동안 Local Minimum을 피하고 SSTN(Symmentric STN)의 힘을 더 활용하기 위해 Parallel SPPE를 도입하였다. 그리고 기존 Training Samples를 보강하기 위해 Pose-guided Proposals Generator(PGPG)가 도입되었다.

Symmentric STN and Parallel SPPE

인간 Detector에 의해 제공되는 Human Proposals는 SPPE에 적합하지 않다. SPPE는 한 사람의 이미지에 대해 Training을 진행하였으며 Localization Error에 매우 민감하기 때문이다. 그래서 Symmentric STN과 Parallel SPPE를 통해 불완전한 Human Proposals가 주어진 경우 SPPE를 강화하게끔 진행한다.