Q1. YOLO(You Only Look Once) 모델의 주요 특징과 장점은 무엇인가요?
A1. 1-stage object detector로, 객체의 위치와 클래스를 동시에 예측하는 모델이다. 상대적으로 FPS가 높아 실시간 탐지에 유리하다는 장점이 있다.
Q2. mAP(mean Average Precision)의 개념이 무엇이며 객체 인식에서 어떻게 활용되는지 설명해주세요.
A2. 정밀도(precision)와 재현율(recall)을 종합해 성능을 측정하는 지표로, Average Precision(AP)의 평균값이다. mAP@0.5=0.8 일 경우, IoU 50% 이상인 값이 80%라는 뜻이다.
| 항목 | 설명 |
|---|---|
| YOLO 구조 | End-to-End CNN으로 객체 탐지 |
| 예측 방식 | 한 번에 바운딩 박스 + 클래스 예측 |
| 속도 | 매우 빠름 (실시간 가능) |
| 장점 | 간단한 구조, 고속 처리, 실시간 적합 |
| 단점 | 작은 객체 탐지에 약함 |
| mAP | 클래스별 AP 평균값 |
| AP 계산 | PR 곡선 면적 (Precision-Recall 기반) |
| 활용 | 모델 성능 평가 및 비교 지표로 사용 |
A. End-to-End 방식
B. 속도 중심 구조
C. 전체 이미지 인식
D. 단일 회전 처리
| 버전 | 주요 특징 |
|---|---|
| YOLOv1 | 최초 버전, 전체 이미지 단일 pass 처리 |
| YOLOv2 | BatchNorm 도입, Anchor box 추가 |
| YOLOv3 | Darknet-53 백본, multi-scale prediction |
| YOLOv4 | CSP 구조, Mish 활성화 함수 |
| YOLOv5 | PyTorch 기반, 경량화 및 실용성 강조 |
| YOLOv6 | Anchor-free 버전 |
| YOLOv7 | 속도와 정확도 극대화, 모델 최적화 |
| YOLOv8 | Segment, Classify 등 멀티 작업 지원 |
mAP@0.5 = 0.80
→ “예측 박스가 정답 박스와 50% 이상 겹치면 정탐으로 인정하자”
→ 딱 하나의 기준에서만 측정
→ 이 기준에서 정확도가 80%
mAP@[.5:.95] = 0.47
→ “IoU 기준을 여러 단계로 바꿔가며 얼마나 잘 맞추는지 보자”
→ IoU를 0.50, 0.55, 0.60, ..., 0.95까지 10단계로 나눠서 각각 AP 계산 후 평균한 값
→ 얼마나 정확하게 맞췄냐를 훨씬 정밀하게 평가
→ 이 기준에서 정확도가 47%
| 항목 | 설명 |
|---|---|
| IoU | 예측 box와 GT box의 겹친 비율 |
| Precision | TP / (TP + FP) |
| Recall | TP / (TP + FN) |
| AP | 클래스별 PR curve 면적 |
| mAP | 전체 클래스에 대한 AP 평균 |
| 평가 기준 | mAP@0.5, mAP@[.5:.95] |
YOLO(You Only Look Once) 모델은 실시간 객체 탐지를 위해 설계된 딥러닝 기반의 객체 인식 모델입니다. 기존 객체 탐지 방법들은 여러 단계로 구성되어 있어 속도가 느렸지만, YOLO는 한 번의 Forward Pass만으로 객체의 위치와 클래스를 동시에 예측할 수 있기 때문에 매우 빠르게 동작합니다.
YOLO의 주요 특징 중 하나는 그리드 기반 예측 방식입니다. 이미지 전체를 작은 그리드로 나누고, 각 그리드 셀에서 객체의 중심이 존재할 가능성을 예측하는 방식으로 동작합니다. 이를 통해 전체 이미지를 한 번에 분석하면서도 높은 연산 효율을 유지할 수 있습니다.
또한, YOLO는 엔드투엔드 방식(end-to-end approach)을 사용하여 모델이 이미지에서 직접 바운딩 박스와 클래스를 예측합니다. 이를 통해 속도가 빠르고 최적화가 용이하며, 실시간 객체 탐지가 필요한 자율주행, 보안 감시, 스포츠 분석 등의 분야에서 널리 활용되고 있습니다.
YOLO의 가장 큰 장점은 빠른 속도와 높은 효율성입니다. 다른 객체 탐지 모델(R-CNN 계열)과 비교했을 때, YOLO는 몇 배 이상 빠르게 동작하면서도 상대적으로 높은 정확도를 유지합니다. 특히, 단일 네트워크 구조로 동작하기 때문에 실시간 응용이 가능하다는 점에서 강력한 장점을 가지고 있습니다.
그러나 YOLO는 상대적으로 작은 객체를 탐지하는 데 어려움을 겪을 수 있으며, 정확도를 높이기 위해 최신 버전(YOLOv3, YOLOv4, YOLOv5 등)에서 개선이 이루어지고 있습니다. 최신 버전에서는 앵커 박스(anchor box) 활용, 더 깊어진 네트워크 구조, 고해상도 입력 지원 등의 기술을 통해 정확도를 향상시키고 있습니다.
mAP(mean Average Precision)는 객체 인식 모델의 성능을 평가하는 대표적인 지표로, 모델이 얼마나 정확하게 객체를 탐지하는지를 정량적으로 측정하는 데 사용됩니다.
mAP는 먼저 AP(Average Precision)를 계산한 후, 모든 클래스에 대해 평균을 구하는 방식으로 정의됩니다. AP는 특정 클래스에 대해 Precision-Recall 곡선(Precision-Recall Curve)의 아래 영역(AUC, Area Under Curve)을 계산한 값입니다. 즉, Precision과 Recall의 균형을 반영하여 한 개의 숫자로 성능을 표현하는 지표입니다.
객체 인식에서는 예측된 바운딩 박스가 정답과 얼마나 잘 맞는지를 평가하기 위해 IoU(Intersection over Union)을 사용합니다. 일반적으로 IoU가 특정 임계값(예: 0.5) 이상이면 정확한 탐지로 간주하고, Precision과 Recall을 계산한 후 AP를 산출합니다. 이후 모든 클래스에 대해 AP를 구하고, 이를 평균 낸 값이 최종적인 mAP 값이 됩니다.
GURU
mAP는 객체 인식 모델의 전반적인 성능을 평가하는 핵심 지표로 활용되며, 모델이 다양한 객체를 얼마나 정확하게 탐지하는지 비교할 때 사용됩니다. 특히, YOLO, SSD, Faster R-CNN 등 다양한 객체 탐지 모델에서 성능을 평가하는 기준으로 사용되며, mAP가 높을수록 모델이 정확하게 객체를 인식한다고 볼 수 있습니다.