Pose Estimation = keypoints detection = pose estimation
분류와 비슷하지만, upsampling한다는 다른 점이 있음
학습요소
사람의 위치정보 (bbox)
관절별 좌표
모델 계층
Mask-RCNN (Top-down)
모듈 1 : Feature Extractor (backbone) - ResNext ,
모듈 2 : RPN, 어디에 객체가 있을지 후보
모듈 3 : Bounding box regrassion and Classification
모듈 4 : binary class estimation
모듈 5 : Human pose estimation (mask이용)
mask : 관절 1 배경 0
Microsoft common objects in context (MS COCO)
데이터셋 : x,y,v(visibility flag) v: 이미지에 확실 존재(2), 이미지에 존재하지않음(0), 가려져있음(1)
평가지표 : Object keypoint similarity(OKS) basedd mean Average Precision
regression 보다 heatmap접근이 성능이 더 잘나옴
Trade-off: global information vs high resolution
보통 global information을 높이기 위해 receptive field를 확대하면 resolution이 낮아지고 upsampling했을때 정보손실이 높아짐
HRNet (high resolution)
일반적인 구조
압축(high to low): strided convoution, pooling -> 복원: upsampling, transposed convolution
(spatial information 손실)
원인: 구조가 직렬화되어 있어서
병렬화: 병렬적인 하위 네트워크들로 multi-scale resolution을 그대로 유지하여 다양한 scale의 spatial 정보 학습