Deep High-Resolution Representation Learning for Human Pose Estimation

이은비·2024년 10월 18일

기존의 자세 추정 모델들은 주로 고해상도-저해상도-고해상도 복구 과정을 따릅니다.
즉, 입력 이미지의 해상도를 낮춘 후, 마지막에 다시 고해상도를 복구하는 방식으로 사람의 자세를 추정합니다. 하지만 이 과정에서 해상도를 낮추면 원본 이미지의 세부 정보를 잃게 되어 정확도가 떨어지는 문제가 발생합니다.
이에 비해, HRNet은 처음부터 끝까지 고해상도를 유지하면서 네트워크를 설계합니다.네트워크의 각 단계에서도 고해상도를 유지하기 때문에, 더욱 정확한 공간적 정보를 지속적으로 보존할 수 있습니다. 이는 키포인트(keypoint)를 추정할 때 더 정밀한 결과를 제공하며, 자세 추정의 공간적 정확성이 크게 향상됩니다.
HRNet의 또 다른 중요한 특징은 다중 해상도 융합(multi-scale fusion)입니다. 이 네트워크는 병렬적으로 다양한 해상도를 가진 서브네트워크를 사용하여 각각의 서브네트워크에서 다양한 해상도의 특징을 추출합니다. 예를 들어, 고해상도 서브네트워크는 섬세한 디테일을 잘 포착하고, 저해상도 서브네트워크는 더 넓은 맥락(context)을 잘 이해합니다.

특히, 이러한 다중 해상도의 서브네트워크 간 정보를 반복적으로 교환하며 융합하는 방식이 HRNet의 강력한 점입니다. 여러 해상도의 정보를 반복적으로 주고받으며 서로 보완해 나가기 때문에, 전체적으로 풍부한 고해상도 표현을 만들어냅니다. 이 과정은 단순한 해상도 복구가 아니라, 네트워크가 모든 해상도에서 중요한 특징을 놓치지 않고 학습할 수 있도록 돕습니다.

이러한 설계 덕분에, HRNet은 기존 방식들에 비해 더 정확한 자세 추정 결과를 내며, 특히 키포인트 히트맵의 공간적 정밀도가 매우 향상됩니다.
정리)

1. 병렬 고해상도-저해상도 서브네트워크
가로 방향(Depth): 네트워크의 깊이를 나타내며, 더 깊은 레이어로 갈수록 더 복잡한 특징을 추출합니다.
세로 방향(Scale): 각각의 병렬 서브네트워크는 서로 다른 해상도의 특징 맵을 처리합니다. 상단에서 하단으로 내려갈수록 더 낮은 해상도의 서브네트워크를 나타내며, 1x, 2x, 4x 등으로 해상도가 점차 낮아집니다. 이때, 고해상도 서브네트워크는 이미지의 세부 정보를 잘 유지하고, 저해상도 서브네트워크는 더 넓은 맥락(context)을 이해할 수 있도록 도와줍니다.
2. 다중 해상도 융합(Multi-Scale Fusion)
그림에서 화살표로 연결된 부분은 서로 다른 해상도의 서브네트워크 간에 정보를 교환하는 과정을 나타냅니다. 고해상도 서브네트워크와 저해상도 서브네트워크는 서로 정보를 주고받으면서, 각 서브네트워크가 서로의 정보를 융합하여 더 풍부한 표현을 학습할 수 있게 됩니다. 이 과정은 여러 번 반복되어, 네트워크가 각 해상도에서 추출한 정보를 종합적으로 사용할 수 있게 만듭니다.
3. 업샘플링과 다운샘플링
다운샘플링(Down sampling): 해상도를 줄이는 과정으로, 더 추상적이고 고수준의 정보를 추출하는 데 사용됩니다. 각 서브네트워크는 해상도를 절반으로 줄이면서 특징을 추출하고, 이 특징은 다음 레이어로 전달됩니다.
업샘플링(Up sampling): 해상도를 다시 높이는 과정으로, 추상화된 특징을 고해상도로 복원하여 더욱 세밀한 예측을 할 수 있도록 합니다. 업샘플링된 정보는 고해상도 서브네트워크에 전달되어 세부적인 정보와 결합됩니다.
4. 정보 교환
교차 화살표는 서로 다른 해상도의 서브네트워크 간의 정보 교환을 나타냅니다. 이 교환 과정은 고해상도와 저해상도의 정보를 동시에 활용하여, 각 해상도의 장점을 모두 결합할 수 있게 합니다. 이를 통해, 고해상도에서는 세밀한 정보가, 저해상도에서는 넓은 맥락 정보가 잘 결합됩니다.

정리)기존의 자세 추정 모델들은 주로 고해상도-저해상도-고해상도 복구 과정을 따릅니다.
즉, 입력 이미지의 해상도를 낮춘 후, 마지막에 다시 고해상도를 복구하는 방식으로 사람의 자세를 추정합니다. 하지만 이 과정에서 해상도를 낮추면 원본 이미지의 세부 정보를 잃게 되어 정확도가 떨어지는 문제가 발생합니다.
이에 비해, HRNet은 처음부터 끝까지 고해상도를 유지하면서 네트워크를 설계합니다.따라서 더욱 정확한 공간적 정보를 지속적으로 보존할 수 있습니다.HRNet의 또 다른 중요한 특징은 다중 해상도 융합(multi-scale fusion)입니다. 그림에서 볼 수 있듯이 화살표로 서로 다른 해상도의 서브네트워크 간에 정보를 교환하는 과정을 거쳐 서로의 정보를 융합하여 더 풍부한 표현을 학습할 수 있게 됩니다.예를 들면 고해상도에서는 세밀한 정보가, 저해상도에서는 넓은 맥락 정보가 잘 결합됩니다.
출처)https://velog.io/@hanovator/Deep-High-Resolution-Representation-Learning-for-Human-Pose-Estimation
https://iambeginnerdeveloper.tistory.com/209https://www.youtube.com/watch?v=w39bjQxm1eg

이은비

cs/ce 전공 재학생입니다.

이전 포스트

Deep High-Resolution Representation Learning for Human Pose Estimation

OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

0개의 댓글