Simple Baselines for Human Pose Estimation and Tracking

먕먕·2023년 2월 18일
0

HPE(human pose estimation)은 딥러닝에 의해 크게 발전되었으며 ‘in the wild’ 작업이 소개되고 있다. 동시에 네트워크 구조와 실험들 역시 복잡해지고 있다. 이에 대해 ‘how good could a simple method be?’라는 질문을 던진다.


ResNet은 이미지 feature 추출을 위한 가장 일반적인 backbone 네트워크이다. C5라고 하는 ResNet의 마지막 convolution 단계의 몇 개의 deconvolution layer를 추가한다.

batch normalizatoin과 ReLU activation이 있는 deconvolution layer 3개를 사용한다. 각 layer는 4X4 kernel이 있는 256 filter가 있다. stride는 2이다. 모든 k 키포인트에서 히트맵 {H1 … Hk} 예측을 생성하기 위해 마지막에 1X1 convolutional layer가 더해진다.

예측한 히트맵과 타겟 히트맵 사이 loss를 계산하기 위해 MSE(mean squared error)가 사용된다. 관절 k를 위한 타겟 히트맵 H^k는 k번째 관절의 GT 위치 가운데에 2D gaussian을 더하여 생성한다.



입력 image가 들어가고
ResNet에서 image feature 추출

  • 32배 줄어듬

3개의 deconvolutional layers

  • (2^3)8배 upsampling하므로
  • 4배 줄어드는 걸로 바뀜

포즈 추정



OHKM

  • 학습 샘플 마이닝
  • training에서 어렵다고 느껴지는 sample의 loss를 크게 줘서 모델이 어려운 case에 집중하게 하는 테크닉


매우 무거운 모델인 CPN보다 높은 성능


기존의 human pose estimation을 위한 backbones(ResNet 등)은 input image를 32배 downsampling

  • 예를들어 256x256 image는 8x8 feature map

이러한 downsampling은 저해상도 feature map을 초래함
저해상도 feature map

  • 작은 부분들 ( 손목, 발목)이 downsampling으로 인해 없어짐
  • Discretization problem(불연속)
    • 즉 8x8 feature map의 첫 pixel은 256x256 image에서 1~32번째 픽셀에 해당 ⇒ 1 pixel만 틀려도 32개 pixel이 다 틀리게 됌

0개의 댓글