바운딩 박스(Bounding box)로 검출된 물체들을 나타내는 객체검출(Object detection)과는 다르게 이미지 분할(Image segmentation)은 픽셀의 분류(Classification) 문제이다.
네트워크가 입력 이미지 안의 모든 픽셀을 (지정된 개수의)클래스로 분류하는 것을 목표로 한다.
Image Segmentation Network는 아래의 첫번째 이미지와 같이 각 pixel이 N개의 클래스 중 어떤 클래스에 속하는지를 나타낸 Segmentation map을 출력한다.
(Segmentation map은 클래스의 개수와 동일하게 N개의 channel로 구성되어 있다.)
최종적으로는 두번째 이미지와 같이 Segmentation map에 argmax를 통해서 아래 이미지처럼 1 channel 이미지를 출력으로 내보낸다.
물론 입력이미지의 W, H를 보존하면서 feature를 추출하면 좋겠으나, 메모리 문제로 입ㄹ겨이미지의 W, H를 유지하면서 feature를 추출할 수 없다.
아래와 같이 네트워크를 구성하고 학습을 진행하면 Instance/Sementic 별 pixel이 분할되도록 네트워크의 가중치가 학습된다.