1. Autoencoder의 기본 아이디어
Autoencoder는 입력 데이터를 압축했다가 복원하는 구조다.
- Encoder: 점점 차원을 줄이며 입력의 특징을 압축
- Latent Vector: 데이터의 핵심 정보 보관
- Decoder: 다시 차원을 키워 입력과 비슷한 형태 복원
👉 즉, “데이터의 중요한 특징을 효율적으로 표현”하는 것이 핵심이다.
2. Autoencoder의 한계
Autoencoder는 전체적인 데이터 특징을 잘 잡지만, 세밀한 위치 정보가 손실되기 쉽다.
예를 들어, 이미지에서 픽셀 단위 분할(Segmentation)이 필요할 때 문제가 된다.
- 압축 과정에서 해상도가 줄어들며 세부 정보(엣지, 경계)가 사라진다.
- Decoder는 Latent Vector만 가지고 복원하기 때문에, 원래 픽셀 위치를 정확히 재현하기 어렵다.
3. U-Net의 등장
이 한계를 해결하기 위해 나온 구조가 바로 U-Net이다.
- Autoencoder의 기본 구조(Encoder → Bottleneck → Decoder)를 유지한다.
- 여기에 Skip Connection을 추가하여, 인코더의 피처맵을 디코더로 직접 전달한다.
👉 덕분에 U-Net은 **추상적 특징(저해상도) + 세밀한 위치 정보(고해상도)**를 동시에 활용할 수 있다.
4. 구조 비교
| 항목 | Autoencoder | U-Net |
|---|
| 입력 처리 | 인코더에서만 단계별 압축 | 인코더 압축 + 디코더 복원 |
| 위치 정보 | 압축 과정에서 손실됨 | Skip Connection으로 보존 |
| 출력 목표 | 입력과 유사한 전체 복원 | 픽셀 단위의 정확한 분할 |
| 응용 분야 | 차원 축소, 노이즈 제거, 이상 탐지 | 의료 영상, 자율주행, 위성 이미지 |
5. 발전의 의미
- Autoencoder: 데이터를 효율적으로 압축하고 복원하는 “기초 구조”
- U-Net: Autoencoder 구조에 개선을 더해, 픽셀 단위의 고정밀 예측까지 가능하게 발전
즉, U-Net은 Autoencoder의 철학을 계승하면서, 실제 비전 문제(특히 세그멘테이션)에 맞게 강화된 구조라고 볼 수 있다.
6. 그림으로 이해하기
Autoencoder는 단순한 직선 구조지만, U-Net은 “U자형 구조 + Skip Connection”을 통해 정보 손실을 최소화한다.
✅ 정리
- Autoencoder는 “데이터의 압축과 복원”을 핵심 목표로 한다.
- 그러나 세밀한 위치 정보를 요구하는 작업에는 부족하다.
- U-Net은 Skip Connection을 도입해 이 한계를 해결, 정밀한 이미지 분할 모델로 발전했다.
- 따라서 U-Net은 Autoencoder의 자연스러운 확장판이자, 실제 컴퓨터 비전 문제 해결을 위한 실용적인 발전형 모델이라고 할 수 있다.