
Computer Vision이란?
: 기계가 이미지 및 영상을 이해하고 분석하도록 만드는 AI 기술 분야
ML Pipeline은 “입력 데이터를 받아 모델을 만들고, 실전에 적용해 결과를 얻기까지”의 전체 흐름을 뜻한다.
이 포스팅에서는 1, 4, 5번에 대해 다룬다.
Pre-processing은 모델이 정확하게 학습하고, 안정적으로 추론하도록 돕는 단계다.
전처리는 다음의 세 가지 작업을 통해 할 수 있다.
이미지의 좌표계를 조작해 형태·크기·위치를 바꾸는 기술이다.
기하학적 변형은 다음 세 가지 방법으로 진행할 수 있다.
1. 크기 조정(Resizing) & 다운샘플링(Downsampling)
2. 비율 유지 패딩(Letterbox Padding)
3. 이미지 피라미드(Image Pyramid)
⚠️ 0. 단순 Resizing의 한계
이미지를 강제로 정사각형으로 바꾸면 종횡비(Aspect Ratio)가 깨져서 객체가 찌그러지고, 모델이 형태 특징을 학습하기 어려워진다.
1. Downsampling
고해상도 이미지를 모델 입력 크기에 맞게 축소하는 과정이다.
참고: 작은 텍스트(OCR)나 얇은 경계(Edge)는 축소에 더 취약하다.
2. Letterbox Padding
왜곡을 방지하기 위해 종횡비를 유지한 채로 resize하고, 남는 영역을 패딩으로 채우는 방식이다.
OCR처럼 “비율”이 중요한 문제에서 특히 효과적이다.
3. Image Pyramid
원본 이미지를 여러 해상도로 만들어 작은 객체/큰 객체를 더 잘 다루게 하는 전략이다.
조명 변화, 색상 왜곡, 노이즈 같은 현실 변수를 견디게 하기 위해 픽셀 값 자체를 조정하는 과정이다.
1. Normalization
2. Color Correction & Color Space
3. Denoising
1. Normalization
디지털 이미지는 보통 픽셀 값이 0~255(정수) 범위다.
신경망은 입력 스케일에 민감해서, 스케일이 크면 학습이 불안정해질 수 있다.
대표 방식
x / 255 → 0~1 범위로 변환한다.(x - mean) / std로 표준화한다.2. Color Correction & Color Space
같은 물체도 조명(색온도/밝기/그림자)에 따라 RGB가 쉽게 흔들리기 마련이다.
그래서 색상 분포를 안정화하거나, 더 다루기 쉬운 축으로 변환하기도 한다.
3. Denoising
저조도, 센서 잡음 등으로 생긴 노이즈는 경계(Edge)나 질감(Texture) 같은 핵심 성분을 훼손할 수 있다.
주의: 노이즈 제거를 과하게 하면 디테일까지 날아갈 수 있다.
한정된 학습 데이터에 변형을 주어 데이터의 양과 다양성을 늘리고 과적합을 줄여 일반화 성능을 높인다.
다음과 같은 방법으로 데이터를 변형할 수 있다.
1. 기하학적 증강: 좌우반전, 회전, 크롭, 이동(Shift), 스케일 변화
2. 광도적 증강 / 커널 기반 증강: 밝기/대비/채도 변화, 블러, 노이즈 추가
3. 고급 증강
팁: 서비스 환경에서 실제로 발생할 변화 위주로 증강을 설계하는 편이 좋다.
학습된 모델을 실전(Production)에 투입해
새로운 데이터(Unseen Data)를 예측하는 단계다.
실전에서는 정확도뿐 아니라 아래도 같이 본다.
1. Image Classification
2. Object Detection
3. Image Segmentation
4. Face Recognition
5. Pose Estimation
6. OCR
1. Image Classification
이미지 전체를 보고, 미리 정해진 클래스 중 하나를 고르는 작업이다.
대표적인 모델은 다음과 같다.
2. Object Detection
이미지 내 여러 객체의 종류(Class)와 위치(Localization)를 바운딩 박스(Bounding Box)로 함께 예측하는 과제다.
대표적인 모델은 다음과 같다.
3. Image Segmentation
픽셀 단위로 영역을 나누는 과제이며 목적에 따라 다음으로 나뉜다.
4. Face Recognition
사람 얼굴을 인식하는 문제이며 보통 다음 흐름을 따른다.
1. 얼굴 탐지(Detection)
2. 정렬(Alignment)
3. 특징 벡터(Embedding) 추출
4. DB 비교(Verification/Identification)
5. Pose Estimation
주요 관절(Keypoints)을 탐지하고 골격(Skeleton)을 복원한다.
6. OCR(Optical Character Recognition)
이미지 속 문자를 텍스트로 변환하는 기술이다.
모델이 출력한 원시 값(Raw Output)을 사람이 이해하거나 시스템이 쓰기 좋은 형태로 다듬는 과정이다.
객체 탐지(Object Detection)에서는 전형적으로 아래 후처리들이 함께 묶여 적용된다.
1. 임계값 필터링(Thresholding): Confidence가 기준치 이상인 결과만 남긴다.
2. 비최대억제(NMS): 겹치는 박스 중 중복을 제거한다(IoU 기준).
3. 좌표 변환 및 스케일링(Coordinate Scaling): 전처리로 바뀐 좌표를 원본 이미지 기준으로 되돌린다.
4. 시각화(Visualization): Bounding Box, 마스크, 히트맵 등으로 결과를 표현한다.
OCR + NLP 후처리 전략