[딥러닝] YOLO26: A Comprehensive Architecture Overview and Key Improvements

RCC.AI·2026년 3월 6일

YOLO 딥러닝

딥러닝

목록 보기

53/57

YOLO26: A Comprehensive Architecture Overview and Key Improvements

YOLO26

Abstract (초록)

YOLO(You Only Look Once)는 10년간 딥러닝 컴퓨터 비전의 대표 모델이었습니다. 이 논문은 YOLO 시리즈의 최신 버전인 YOLO26의 새로운 특징을 탐구합니다.
핵심 개선사항은 4가지입니다: DFL 제거, NMS-Free 추론, ProgLoss + STAL, MuSGD 옵티마이저. 이를 통해 CPU 모드에서 43% 속도 향상을 달성했다고 주장하며, GPU 없는 엣지 디바이스에서의 실시간 처리를 가능하게 합니다.
이 논문의 차별점은 단순히 공식 문서를 정리하는 것을 넘어, GitHub 소스 코드를 직접 분석하여 최초로 완전한 YOLO26 아키텍처 다이어그램을 제공한다는 점입니다.

Section 1: Introduction (소개)

Ultralytics의 YOLO가 가장 인기 있는 이유로 5가지를 제시합니다:

a. 객체 탐지, 인스턴스 세그멘테이션, 분류, 포즈 추정, OBB, 추적까지 다양한 CV 작업 지원
b. YAML 기반으로 쉽게 수정 가능
c. ONNX, TensorRT, CoreML, OpenVINO 등 다양한 포맷으로 내보내기 가능
d. 양자화(Quantization) 지원으로 속도 향상
e. 속도와 정확도의 균형, 특히 YOLO26에서는 엣지 디바이스 속도 향상에 집중

YOLO26이라는 이름의 유래: YOLOv13 다음 버전임에도 버전 번호를 건너뛰어 YOLO26이 되었습니다. 2026년에 출시(1월 14일)되었기 때문이기도 하지만, 다른 기관이 같은 해에 새로운 YOLO 버전을 출시할 경우 혼동을 유발할 수 있다는 점도 지적합니다.

논문의 핵심 주장: 공식 문서만으로는 DFL이 아키텍처 어느 블록에 위치하는지조차 알 수 없습니다. 소스 코드를 직접 분석해야 하며, 이 논문은 그 분석 결과를 처음으로 공개합니다. 슬로건은 "Built End-to-End. Built for the Edge"입니다.

Section 2: Evolution of YOLO Models (YOLO 모델 진화)

YOLO 모델의 역사를 표로 정리합니다. 처음 4년간 3개 버전이 출시되었으나, YOLOv4(2020년) 이후 2026년까지 무려 11개 버전이 출시될 만큼 빠르게 발전했습니다.

Section 3: YOLO26 Architecture (아키텍처)

아키텍처는 Ultralytics GitHub 소스 코드(yolo26.yaml, tasks.py, release 8.4.14)를 직접 분석하여 도출했습니다. 입출력 텐서 추적으로 다이어그램을 검증했습니다.

모델은 depth_multiple, width_multiple, max_channels 세 파라미터로 정의되며, 모델 크기(n/s/m/l/xl)에 따라 값이 달라집니다.

Backbone (백본)

Conv ×2 (커널 3, 스트라이드 2): 공간 해상도를 단계적으로 절반씩 축소 (640→320→160)
C3k2 블록: 높은 추상화 수준의 특징 추출 (파라미터: n, c3k, e)
블록 3, 5, 7은 추가 합성곱, 블록 4, 6, 8은 C3k2로 구성되며 이 세 블록은 Neck과 연결됨

Neck (넥)

SPPF (Spatial Pyramid Pooling Fast): 다양한 크기의 풀링으로 다중 추상화 수준 특징 추출. YOLO26에서는 숏컷 연결이 추가되어 정보 흐름 강화
C2PSA 블록: 셀프 어텐션 기반 전역 모델링
Upsample + Concat: 특징 맵 해상도 복원 및 병합 (해상도 유지, 채널 수 증가)
마지막 C3k2 블록에는 어텐션 블록이 새로 추가됨

Head (헤드)

세 개의 탐지 헤드로 구성됩니다:

Head 1 (C3k2 블록 16): 소형 객체 탐지 (80×80)
Head 2 (C3k2 블록 19): 중형 객체 탐지 (40×40)
Head 3 (C3k2 블록 22): 대형 객체 탐지 (20×20)

가장 주목할 점은 DFL이 완전히 제거되었다는 것입니다.

Section 4: Key Improvements (핵심 개선사항)

YOLO26의 아키텍처는 YOLO11과 매우 유사하지만 아래 4가지 핵심 개선이 이루어졌습니다.

4-1. SPPF 숏컷 추가

SPPF 블록 내부에 숏컷 연결을 추가하여 그래디언트 전달을 강화하고 고수준 의미 표현에서의 최적화를 안정화합니다.

4-2. DFL 제거 + NMS-Free 추론

DFL의 문제점: 기존 YOLO에서 DFL은 바운딩 박스 위치의 분포를 예측하여 회귀를 개선했지만, 추가 연산과 고정 회귀 범위로 인해 one-to-one 객체 할당 학습이 어렵고 NMS 의존성이 높아지는 문제가 있었습니다.
YOLO26의 해결책: DFL을 제거하고 좌표를 직접 예측하는 박스 회귀로 대체했습니다. 이를 통해 학습과 추론 과정이 단순화됩니다.
Dual Assignment (NMS-Free): YOLOv10에서 영감을 받았습니다.
- 학습 시: one-to-many + one-to-one 헤드를 동시에 사용. one-to-many는 백본/넥에 풍부한 감독 신호를 제공하고, one-to-one은 각 객체에 하나의 예측만 대응시킵니다
- 추론 시: one-to-many 헤드를 제거하고 one-to-one 헤드만 사용하여 NMS 없이 최종 탐지 결과를 직접 출력
- Top-K 선택: IoU 비교 없이 분류 신뢰도 점수 기반으로 상위 K개 예측을 선택

4-3. ProgLoss + STAL

ProgLoss (Progressive Loss Balancing): 학습 신호의 가중치를 시간에 따라 동적으로 조정합니다.
- 초기 단계: one-to-many 헤드에 높은 가중치 → 학습 안정화, 재현율 향상
- 후기 단계: one-to-one 헤드로 점진적 이동 → 추론 동작과 학습을 일치시킴
- 결과: 수렴이 부드러워지고, 불안정한 학습 실행이 줄어들며, 최종 성능이 일관됨
STAL (Small-Target-Aware Label Assignment): 기존 TAL(Task Alignment Learning)은 매우 작은 객체를 자주 무시하는 문제가 있었습니다. STAL은 이를 해결하기 위해 640×640 입력 이미지 기준으로 8×8 픽셀 이하의 소형 객체에 최소 4개의 앵커를 보장하여 아무리 작은 객체도 학습 손실에 기여하도록 만듭니다.