
YOLO 시리즈는 객체 탐지(Object Detection)에서 시작해, 이제는 세그멘테이션(Segmentation)까지 확장된 대표적인 모델입니다.
하지만 YOLO v11 Segmentation 전체 아키텍처를 한눈에 확인할 수 있는 자료가 없었습니다.
이번 글에서는 직접 구조를 분석하고 도식화한 YOLOv11-Seg Full Architecture를 기반으로,
Backbone → Neck → Detection Head → Segmentation Head까지 전체 과정을 정리해보겠습니다.

Backbone은 입력 이미지를 받아 점차 해상도를 줄여가며 특징을 뽑아내는 역할을 합니다.
640 × 640 × 3 CBS: Conv + BN + SiLU C3k2 Block: 병렬 conv 구조, 일부 residual 연결 포함 SPPF: 다양한 receptive field 확보 C2PSA: YOLO v11에서 새롭게 추가된 Parallel Spatial Attention 모듈 Backbone을 거치면 최종적으로 20 × 20 × 256 feature map이 생성되고, 이게 Neck으로 전달됩니다.
Neck은 FPN과 PAN 구조를 결합해 멀티 스케일 feature를 만듭니다.
FPN (Top-down)
PAN (Bottom-up)
최종적으로 3가지 크기의 feature가 만들어집니다.
80 × 80 (small object) 40 × 40 (medium object) 20 × 20 (large object) Detection Head는 각 스케일 feature에서 클래스와 바운딩 박스를 예측합니다.
cls + box raw 출력 Detection Head의 최종 출력: N개의 객체 후보 (cls + bbox)
세그멘테이션은 YOLO에서 독특하게 Proto + Coeff 방식을 사용합니다
80 × 80 × 64 160 × 160 × 32 proto mask 생성 80×80, 40×40, 20×20) 32채널 feature map 객체 i의 마스크는 계산방식:
[ Mi = \sum{j=1}^{32} \text{Coeff}[i,j] \times \text{Proto}_j ]
즉, proto 32장을 coeff 비율대로 섞어 최종 instance mask를 만듭니다.
YOLO v11 Segmentation의 최종 결과
최종적으로 각 객체는 (cls, bbox, mask) 세트로 출력됩니다.
이 방식 덕분에 객체마다 새로운 마스크를 CNN으로 직접 생성하지 않고도 효율적으로 instance mask를 얻을 수 있습니다.
YOLO v11 Segmentation은
덕분에 객체 탐지와 세그멘테이션을 동시에 처리하면서도
연산 효율과 정확도의 균형을 잡을 수 있는 구조가 완성되었습니다.
이번에 정리한 아키텍처는 아직 공식 문서나 논문 어디에도 정리된 적이 없기 때문에,
YOLO v11 객체 탐지 모델과 함께 Segmentation을 이해하거나 연구할 때 꽤 도움이 될 것이라 생각합니다.