딥러닝의 모델 구조: Cascade, 피라미드, Hourglass, 그리고 오토인코더까지 한눈에 정리!

Bean·2025년 6월 9일

AutoEncoder Cascade모델 Hourglass모델 MachineLearning Pyramid모델 객체탐지 딥러닝 딥러닝구조비교 컴퓨터비전 키포인트추정

인공지능

목록 보기

46/131

딥러닝 모델을 공부하다 보면 종종 등장하는 개념들이 있습니다. 특히 컴퓨터 비전 분야에서는 Cascade 모델, Pyramid 모델, Hourglass 모델, 그리고 Autoencoder(오토인코더) 같은 구조가 자주 활용됩니다.

처음 들으면 모두 비슷하게 들릴 수 있지만, 각각의 모델은 구조와 목적, 그리고 활용 분야에서 분명한 차이를 갖고 있습니다. 이 포스트에서는 이 네 가지 모델을 비교하며 쉽게 설명해 드리겠습니다.

1. Cascade 모델

1.1 개념

Cascade 모델은 여러 개의 작은 모델을 연속적으로 연결(cascade) 해 문제를 점진적으로 해결하는 방식입니다.
처음에는 간단한 예측을 하고, 이후 단계에서 점점 더 정밀하게 보정하거나 후처리하는 식이죠.

1.2 대표 예시

Cascade R-CNN: 객체 탐지에서 물체의 경계 박스를 점점 더 정확하게 조정하는 방식

1.3 장점

복잡한 문제를 여러 단계로 나누어 처리하여 계산 효율을 높임
단계별로 보정하면서 정확도 향상

2. Pyramid 모델

2.1 개념

Pyramid 모델은 이미지나 피처를 다양한 스케일에서 동시에 다루는 구조입니다.
큰 물체는 고해상도에서, 작은 물체는 저해상도에서 더 잘 보이기 때문에, 여러 해상도를 함께 활용하는 것이 특징입니다.

2.2 대표 예시

FPN (Feature Pyramid Network): CNN 피처를 계층적으로 병합하여 다양한 크기의 객체를 탐지

2.3 장점

다양한 크기의 객체를 동시에 인식 가능
해상도가 다른 피처 맵을 활용하여 정확도 향상

3. Hourglass 모델

3.1 개념

Hourglass(모래시계) 모델은 구조적으로 인코딩 → 병목 → 디코딩으로 구성되어 있습니다.
입력을 점점 압축했다가, 다시 확장하면서 로컬과 글로벌 정보를 통합하는 구조입니다.

3.2 대표 예시

Stacked Hourglass Network (2016): 사람의 관절 위치를 추정하는 데 사용됨

3.3 장점

다양한 해상도의 정보를 동시에 활용 → 키포인트 추정 등에서 매우 효과적
대칭적인 구조로 업샘플링 시 정보 손실이 적음

4. Hourglass vs. Autoencoder: 무엇이 다를까?

Hourglass 모델과 Autoencoder는 구조적으로 비슷해 보일 수 있습니다. 둘 다 입력을 압축했다가 복원하는 구조이기 때문인데요, 사실은 목적과 출력 방식에서 큰 차이가 있습니다.

4.1 공통점

항목	설명
구조	인코더 → 병목 → 디코더
사용 기술	Convolution, Pooling, Upsampling 등
특징	입력 정보를 압축했다가 다시 복원함

4.2 차이점 비교

항목	Hourglass 모델	Autoencoder
목적	예측(예: 키포인트, 히트맵)	입력 재구성
출력	원래 입력과 다른 형태 (예: 히트맵)	입력과 거의 같은 결과
병목 지점 역할	다양한 해상도 정보 통합	의미 있는 잠재 표현 생성
구조	대칭적 (거울 구조)	대칭적일 수도 있고 아닐 수도 있음
활용 분야	자세 추정, 키포인트 검출	노이즈 제거, 차원 축소, 이상 탐지

4.3 구조 예시 (텍스트 도식)

[입력 이미지]
    ↓
[인코더: 압축]
    ↓
[병목 지점]
    ↓
[디코더: 복원]
    ↓
[출력]

Autoencoder: 입력 = 출력 (예: 고양이 → 고양이)
Hourglass: 입력 ≠ 출력 (예: 사람 사진 → 관절 위치 히트맵)

5. 마무리 정리

항목	Cascade	Pyramid	Hourglass	Autoencoder
주요 목적	점진적 정밀화	다중 스케일 처리	예측 정확도 향상	입력 재구성
대표 구조	Cascade R-CNN	FPN	Stacked Hourglass	Variational AE 등
주요 분야	객체 검출	객체 검출, 분할	키포인트 추정	이상 탐지, 표현 학습

Bean

AI developer

이전 포스트

PyTorch 모델, VRAM 사용량 분석해보니…

다음 포스트