기존 컨볼루션 네트워크는 한 이미지에 대한 단일 클래스 라벨 즉 Classification을 출력하는 것입니다. 그러나 많은 시각적 작업 특히 생물의학 이미지는 출력에 위치 정보 즉 Segmentation도 지정되길 원합니다. 이에 Ciresan 등 슬라이딩 윈도우 설정에서 네트워크를 훈련시켜 이를 구현했습니다. 하지만 이 방식은 다양한 문제점을 갖고 있었습니다.
U-Net은 Segmentation의 필요성이 바이오 메디컬 분야에서 높은 성능이 나오길 기대하는 사람들이 많아지고, 기존 슬라아딩 윈도우 방법의 문제점을 개선하기 위해서 나온 모델입니다.

1. 다양한 패치로 인해 생기는 문제
네트워크가 각 패치마다 별도로 실행되어야 하므로 상당히 느립니다(파랑, 초록, 노랑 모두 실행해야해서 느립니다).
또한 겹치는 패치들로 인해 많은 중복이 발생합니다.
2. 위치 지정의 정확도와 맥락 사용 사이의 트레이드오프.
큰 패치는 위치 지정 정확도를 감소시키는 더 많은 맥스-풀링(중요한 정보를 유지하면서 데이터의 크기를 줄이는 방법)을 요구합니다.
작은 패치는 적은 맥락만 학습합니다.

입력한 이미지 특징을 추출하는 부분입니다.
파란색 화살표는 Convolution Block으로 3x3 ReLU를 사용했습니다. 각 단계에서 이를 2번씩 표현해 특징을 추출했습니다.
cf. 한번이 아닌 2번 사용한 이유는 복잡한 특징을 캡처하는 네트워크의 기능을 향상시키는 의도적인 설계 선택입니다.(즉 성능 향상)
한 단계가 끝나면 빨간색 화살표인 Max Pooling을 적용해 너비와 높이를 감소시킵니다.
위의 과정이 총 4번 발생하고 이 최종값을 마지막 단계에서 파란색 화살표 즉 conv를 2번 실행하고 이를 Expansive Path에서 실행시킵니다.
왼쪽 부분의 반대 과정으로 고해상도(원래 이미지)로 복구 하는 작업입니다.
파란색 화살표는 수축 경로와 같은 역할이고, 초록색 화살표 up conv는 Max Pooling의 반대 역할 즉 너비와 높이를 증가시킨다고 보면됩니다.
여기서 주목해야 할 점은 회색 화살표입니다. 회색 화살표는 수축 경로 각 단계에서의 마지막 부분이 확장 경로의 특징 맵에 결합하는 과정입니다. 이때 크기가 안 맞을 경우 수축 경로의 특징 맵을 Crop해서 결합합니다. 이를 통해 네트워크 고해상도의 특징 정보를 활용할 수 있도록 합니다.

기존 방식은 겹치는 영역이 발생해 시간이 오래 걸리고 중복 데이터도 많았지만, U-Net의 새로운 방식은 위에 보이는 것처럼 적은 수의 패치로 학습을 할 수 있습니다.
큰 이미지를 작은 조각으로 나누고 이에 대해 네트워크를 적용한 후 결과를 결합하는 방식입니다.(파란색 영역을 통해 노란색 영역을 학습합니다.)
이미지의 가장자리 부분에서는 누락된 맥락을 입력 이미지의 거울 반사를 통해 추정합니다.(이미지를 자세히 보면 흰색 선이 보이고 이는 미러링 즉 거울 반사를 통해서 획득한 사진임을 알 수 있습니다)
→ 시간과 중복을 모두 감소시켰다.

전통적인 신경망과 달리, FCN은 Fully Connected Layers를 이용하지 않고 Convolution Layers만으로 구성된 것입니다.
1.기존 신경망은 고정된 크기의 입력만을 처리하지만 FCN은 다양한 크기의 입력 이미지를 처리할 수 있습니다.
2.기존 신경망은 공간적 배열을 무시하고 모든 입력을 독립적인 특징으로 처리하지만 FCN은 공간적 구조를 유지해 줍니다.
3.파라미터의 수가 감소해서 과적합이 줄고 학습시간이 감소합니다.

신경망이 자연스러운 변형에 대해 불변성을 갖도록 학습시키는 것.
Linear 하지 않고 픽셀별로 다른 방향으로 뒤틀려서 바이오 메디컬의 이미지에 적절하게 표현됐습니다.

접촉하는 세포들 사이의 배경 라벨에 큰 가중치를 부여함으로써, 객체를 잘 분리하게 해줍니다.(d의사진에서 빨간색 부분에 가중치를 부여해서 경계 부분을 잘 학습 시킬 수 있습니다)

가중치 맵 계산: 가중치 맵 w(x)는 두 부분으로 구성됩니다. 첫 번째 부분 wc(x)는 클래스 빈도의 균형을 맞추기 위한 가중치입니다. 두 번째 부분은 세포 경계와의 거리에 기반한 추가 가중치로, 가장 가까운 세포(d1(x))와 두 번째로 가까운 세포(d2(x))의 경계까지의 거리에 따라 계산됩니다.
(w0 = 10, σ는 약 5픽셀로 설정)
“U-Net”논문을 한마디로 표현하면 의료 영상 분할의 효율적으로 해주는 컨볼루션 신경만 아키텍처로, 상세하고 정확한 픽셀 수준 분류를 위해 연결을 갖춘 대칭 인코더 - 디코더 구조를 특징으로 한다고 할 수 있습니다.