[딥러닝] YOLOE : Real-Time Seeing Anything

RCC.AI·2025년 4월 17일

딥러닝

목록 보기
48/52
post-thumbnail

YOLOE는 기존 YOLO 계열(object detection) 모델들을 기반으로 성능과 효율성을 더욱 향상시킨 변형 모델 중 하나입니다. 일반적으로 “YOLO Enhanced” 혹은 “PP-YOLOE”라는 이름으로도 불리며, Baidu의 PaddleDetection 팀에서 오픈소스로 공개한 버전을 예로 들 수 있습니다. 모델 구조, 학습 기법, 라벨 할당(label assignment) 방식 등에서 여러 최신 기법을 도입해 기존 YOLO 모델 대비 정확도(Precision, Recall, mAP 등)와 추론 속도 모두를 향상시키는 것을 목표로 합니다.

1. 전반적인 구조

YOLOE는 기본적으로 Backbone(특징 추출부), Neck(피처 피라미드, 특징 통합부), Head(디텍션 결과 산출부)로 구성되는 전형적인 1-Stage 검출 프레임워크를 따릅니다. 다만, 각 구성 요소마다 다음과 같은 개선 사항이 반영되어 있습니다.

Backbone(백본)

  • ResNet, CSP(Cross Stage Partial), Reparameterization(RepVGG) 등의 기법을 결합하여, 연산량(Params, FLOPs)을 크게 늘리지 않으면서도 학습과 추론에서 더 높은 특징 추출 성능을 내도록 개선되었습니다.

  • 레이어 구조를 간소화하거나, 병합할 수 있는 연산들을 합쳐(Rep 컨셉) 추론 단계에서 최적화된 형태로 변환시켜 처리 속도를 높이는 방식을 적용합니다.

Neck(넥)

  • FPN(Feature Pyramid Network), PAN(Path Aggregation Network) 등의 구조를 변형하여 다중 스케일 feature들을 효과적으로 통합합니다.

  • 최신 모델에서는 가볍고 효율적인 CSP 기반의 FPN 또는 PAFPN(PAN과 FPN 혼합) 등을 사용해, 작은 물체와 큰 물체 모두를 균형 있게 검출할 수 있도록 합니다.

Head(헤드)

  • Anchor-free 방식(예: FCOS, YOLOX에서 차용)에 기반을 두어, 기존 YOLO가 사용했던 Anchor box를 사용하지 않습니다. 이를 통해 하이퍼파라미터(Anchor 크기 등) 튜닝 부담을 줄이고, 작은 물체나 다양한 스케일에서도 좀 더 유연하게 대응할 수 있습니다.

  • Decoupled Head를 적용합니다. 즉, 분류(Classification)와 회귀(Regression, 박스 좌표 예측) 분기를 구분해 각각의 최적화 효율을 높입니다.

  • 라벨 할당(label assignment) 과정에서 OTA(Optimal Transport Assignment)나 SimOTA 같은 동적 할당 기법을 차용해, 학습 시 각 예측 박스에 더 적절한 타겟을 할당하고 손실 함수를 효율적으로 계산할 수 있게 합니다.

2. 주요 특징 및 개선된 기법

Re-parameterization 기법

  • 학습 단계에서 다중 Branch나 복잡한 블록을 유지하되, 추론 단계에서는 이를 단순화하여 한 번의 Convolution으로 합치는 방식(RepVGG 등)입니다.

  • 모델을 학습 시엔 강력한 표현력을 갖게 하고, 추론 시엔 구조가 단순해져 속도 향상 효과를 누릴 수 있습니다.

Anchor-free & Decoupled Head

  • Anchor 박스를 미리 설정하지 않고, 각 픽셀 혹은 각 특징 포인트에서 직접 물체가 존재할 확률과 바운딩 박스를 예측합니다.

  • 분류와 회귀를 물리적으로 다른 블록에서 수행(Decoupled)하여, 한쪽 신호가 다른 쪽을 간섭하지 않도록 설계합니다.

효과적인 라벨 할당 전략

  • OTA(Optimal Transport Assignment), SimOTA 등의 최신 label assignment 방법은, 정해진 IoU 기반 매칭이 아니라 학습 과정에서 동적으로 ‘가장 최적의 매칭’을 계산합니다.

  • 이를 통해 각 예측 박스와 GT(Ground Truth) 간의 매칭이 더 유연해지고, 어려운 상황(작은 물체, 복잡한 장면)에서의 학습 성능도 향상됩니다.

다양한 학습 기법 적용

  • Mosaic, MixUp 등 강력한 데이터 증강(augmentation) 기법을 도입하여, 네트워크의 일반화 성능을 끌어올립니다.

  • EMA(Exponential Moving Average), LR warm-up & Cosine decay 등 최적화 기법을 조합해 학습 안정성과 수렴 속도를 개선합니다.

추가적인 향상 요소

  • IoU 계열 손실 함수(GIoU, CIoU, EIoU)를 사용하거나, 어휘적/계산적 개선을 더해 바운딩 박스 예측 정확도를 높입니다.

  • 계층적(feature pyramid) 구조 덕분에 다중 스케일 테스트, TTA(Test Time Augmentation) 등을 적용하여 추론 시 정확도를 한층 더 끌어올릴 수 있습니다.

3. 성능 및 활용

  • PP-YOLOE 등으로 대표되는 YOLOE 계열은 YOLOv5, YOLOX, YOLOv7 등과 비교했을 때 유사하거나 더 우수한 mAP(Mean Average Precision)과 높은 FPS를 달성하는 것으로 보고됩니다.

  • 다양한 크기(스몰, 미디엄, 라지, 엑스라지 등)로 모델을 구성할 수 있어, 임베디드 디바이스부터 서버급 환경까지 폭넓게 적용 가능합니다.

  • COCO, Pascal VOC, Cityscapes 같은 벤치마크 데이터셋에서 우수한 성능이 검증되어, 자율주행, CCTV 모니터링, 공장 자동화(FA), 리테일 분석 등 일반적인 물체 검출(detection) 응용 분야에 광범위하게 활용될 수 있습니다.

4. YOLOE 계열과 기존 YOLO 모델 비교

  • Anchor-free 모델들은 Anchor 설정에 따른 하이퍼파라미터 부담이 적고, 작은 물체 검출 성능이 크게 개선되는 경우가 많습니다.

  • Decoupled Head 구조는 분류와 회귀를 분리함으로써 성능 향상의 여지를 제공합니다.

  • 라벨 할당 기법에서 최신 방식을 도입함으로써, 데이터셋별로 섬세하게 맞춰주지 않아도 상대적으로 안정적인 학습이 가능합니다.

5. 정리

YOLOE(특히 PP-YOLOE)는 YOLO 시리즈의 최신 흐름을 반영한 객체 검출 모델로,

  1. Anchor-free & Decoupled Head를 통한 간소화와 성능 향상,

  2. 효과적인 라벨 할당(OTA, SimOTA) 기법,

  3. Re-parameterization 기법으로 학습과 추론 모두를 최적화하는 점,
    등을 특징으로 합니다.

profile
따라가기도 벅찬 AI Engineer 겸 부앙단

0개의 댓글