코드: 링크텍스트
Human pose estimation는 2D 이미지인 2차원 좌표들을 찾아내거나 2D이미지에서 3차원 좌표를 찾는 것을 수행합니다.
즉, 복원의 개념이지요.
2차원에서 3차원으로 복원하는 것은 쉽지 않습니다. 왜냐하면, 카메라 행렬에서 x y z real world 좌표가 이미지 u v 좌표계로 표현될 때 z 축(거리 축) 정보가 소실되기 때문입니다.
그래서, 이번 블로그 에서는 2D영상 내 관절 위치 찾기를 이야기 해보도록 할 겁니다.
2D Pose estimation은 사실 입출력 개수 차이만 있을 뿐 face landmark와 유사합니다.
그러나, 차이점은 face landmark는 고정된 상태가 대부분이지만 human pose같이 관절류들은 넓은 범위로 움직이는 자유도를 갖는 것입니다.
이 자유도라는 특징으로 인해 데이터 분포 설정에 난항을 겪게 됩니다. 그러면, 어떤 방식으로 이 난항을 극복해야할까요?
Top-down
object detection을 통해 사람의 정확한 keypoint찾기
crop한 이미지 내에서 keypoint 찾아내기
detector이 선행
모든 사람마다 알고리즘 적용으로 인해 속도 저하
Bottom-up
detector이 없고 keypoint부터 검출
한 사람에 해당하는 keypoint를 clustering함
detector이 없으므로 다수의 사람 등장해도 속도 저하 X
keypoint 검출 범위가 넓어서 성능이 떨어짐