이 논문의 Introduction 부분은 "U-Net"이라는 아키텍처가 등장하게 된 배경과 기존 접근 방식의 한계, 그리고 U-Net의 주요 특징과 장점을 소개하고 있습니다.
일반적으로 CNN은 분류(classification)에 사용되며, 한 이미지에 대해 하나의 라벨만 예측함.
하지만, 의학 영상 분석에서는 픽셀 단위의 분할(segmentation)이 필요함.
이를 위해 Ciresan et al. (2012)는 슬라이딩 윈도우 방식으로 픽셀 주변의 작은 영역(patch)을 입력으로 주고, 픽셀마다 라벨을 예측함.
장점: 지역 정보(localization)를 잘 반영할 수 있음.
단점:
Fully Convolutional Network (FCN) 구조를 기반으로 발전시킴.
FCN의 장점을 유지하면서, 더 정밀한 segmentation을 가능하게 하기 위해 구조를 변경함.
주요 아이디어:


동일한 클래스의 객체들이 서로 붙어 있을 경우 분리가 어려움
이를 해결하기 위해 가중치 손실 함수(weighted loss function) 사용:
U-Net은 크게 두 부분으로 구성된 구조를 가지고 있습니다:
일반적인 CNN 구조를 따름.
구성 요소:
다운샘플링 단계마다 채널 수를 두 배로 증가시킴.
이 경로는 이미지의 특징 추출과 압축을 담당합니다.
추출된 특성을 이용하여 해상도를 점점 복원하는 구조.
구성 요소:
업샘플링 (크기 복원)
2×2 업컨볼루션 (transposed convolution) → 채널 수를 절반으로 감소
같은 수준의 수축 경로에서 가져온 피처맵과 결합(concatenation)
단, 크롭(cropping) 필요 (컨볼루션 시 생긴 테두리 손실 때문)
이어서 3×3 컨볼루션 × 2회 + 각각 ReLU
이 경로는 위치 정보 복원 및 정밀한 세분화를 담당합니다.
입력 타일의 크기를 잘 선택해야 함:
| 구간 | 구성 요소 | 기능 |
|---|---|---|
| Contracting path | 3×3 conv ×2, ReLU, 2×2 max pooling | 특징 추출과 압축 |
| Expansive path | 업샘플링, 2×2 up-conv, concat, 3×3 conv ×2, ReLU | 위치 복원과 세분화 |
| 출력층 | 1×1 conv | 클래스별 분류 결과 출력 |
마지막 출력(feature map)에 대해 픽셀별로 softmax를 적용하여 각 픽셀이 어떤 클래스일 확률인지 계산합니다:
이 확률과 정답 클래스 간의 차이를 cross-entropy loss로 계산:

클래스 불균형 보정
붙어 있는 물체(셀 등) 분리
이 함수는 두 셀 사이의 픽셀(x)에 대해 거리 기반으로 가중치를 높여서 분리 경계 학습을 강조합니다.
깊은 네트워크는 파라미터 초기화가 매우 중요합니다.
적절하지 않으면 어떤 노드는 너무 크게 활성화되고, 어떤 노드는 아예 죽어버릴 수 있습니다.
He 초기화 방식을 사용:
→ 이 초기화 방식은 각 layer의 출력 분산을 일정하게 유지해 학습 안정성을 높여줍니다.
| 항목 | 설명 |
|---|---|
| 학습 방식 | SGD + high momentum (0.99) |
| 입력 방식 | 큰 타일, 작은 배치 (batch=1) |
| 손실 함수 | 픽셀 단위 softmax + cross-entropy |
| weight map | 클래스 불균형 보정 + touching cell 분리 강조 |
| 초기화 | He 초기화 () |
U-Net 모델의 성능을 실제로 검증하기 위해, 논문에서는 세 가지 **이미지 분할 과제(Segmentation Tasks)**에 적용해 실험을 진행했습니다.
데이터: ISBI 2012 EM segmentation challenge의 데이터셋 사용
테스트 세트: 공개되어 있지만, 정답 라벨은 비공개
예측 결과(세포막 확률 맵)를 제출해야 성능을 평가받을 수 있음
평가 지표:
결과:
입력 이미지를 7방향으로 회전시킨 후 평균을 낸 결과를 사용
전처리나 후처리 없이도 매우 좋은 성능 달성:
비교:
이전 최고 모델 (Sliding-window CNN by Ciresan et al.):
일부 다른 모델들이 Rand error에서는 더 낮은 값 기록했지만, 후처리를 많이 한 경우임

데이터: ISBI 2014/2015 Cell Tracking Challenge – “PhC-U373”
결과:
평균 IOU (Intersection over Union): 92%

데이터: ISBI Challenge – “DIC-HeLa”
결과:
평균 IOU: 77.5%
| 실험 과제 | 데이터 | 성능 | 비교 결과 |
|---|---|---|---|
| 신경세포 분할 (EM) | Drosophila EM 이미지 | Warping error 0.00035, Rand error 0.0382 | 기존 모델보다 정확도 우수 |
| 암세포 분할 (PhC-U373) | 위상차 현미경 | IOU 92% | 2등 모델: 83% |
| HeLa 세포 분할 (DIC-HeLa) | DIC 현미경 | IOU 77.5% | 2등 모델: 46% |
U-Net 아키텍처는 다양한 종류의 생물 의학적 이미지 분할(Biomedical Image Segmentation) 과제에서 매우 뛰어난 성능을 보여주었다.
특히, 탄성 변형(elastic deformation) 기반의 데이터 증강(data augmentation) 기법 덕분에, 소수의 주석(annotated) 이미지만으로도 충분히 학습이 가능하다.
학습 시간도 비교적 짧음:
논문에서는 Caffe 기반 구현 코드와 학습된 네트워크도 공개함.
연구자들은 U-Net 아키텍처가 앞으로 다양한 이미지 분할 과제에 손쉽게 활용될 수 있을 것이라고 확신함.
| 항목 | 내용 |
|---|---|
| 성능 | 다양한 생물의학 분할 문제에서 우수 |
| 데이터 효율성 | 적은 양의 주석 데이터로도 학습 가능 |
| 학습 시간 | 10시간 (NVIDIA Titan 6GB 기준) |
| 도구 제공 | Caffe 구현 및 학습된 모델 제공 |
| 응용 가능성 | 다양한 분야로 확장 가능 |