목 차
1. 자연 이미지 ( Natural Images)
2. 합성/렌더링 이미지(Synthetic Images)
3. 의료/과학 이미지(Medical/Scientific Images)
4. 문서/텍스트 이미지(Document Images)
5. 위성/항공/멀티스펙트럼 이미지(Remote Sensing Images)
6. 동영상/시계열 이미지(Video/Temporal Images)
설명 : 일상 사진, 풍경, 인물 등 우리가 흔히 보는 RGB 이미지
특성
2D 배열: (Height × Width × Channels)
채널: RGB(3), Grayscale(1)
일반 사진, 스냅샷, CCTV, 웹 이미지 등
조명, 노이즈, 해상도 변화에 민감
AI/ML 처리 전략.
전처리 : Resize, Normalize, Standardization, Data Augmentation
모델 적용
CNN 계열: ResNet, EfficientNet, VGG
객체 탐지: YOLOv8, Faster R-CNN
이미지 세그멘테이션: U-Net, DeepLabv3+
데이터 증강(Augmentation)
활용 사례
자율주행 차량의 도로 객체 인식
CCTV 기반 범죄/이상 행동 탐지
전자상거래 상품 이미지 자동 분류
대표 데이터 셋
설명 : 3D 모델링, CAD, 시뮬레이션으로 생성한 이미지.
특성
수학적/가상 객체 기반
렌더링된 장면으로 현실과 유사
다양한 카메라 각도, 조명 조건 자유롭게 생성 가능
AI/ML 처리 전략.
Domain Gap 문제: 합성 → 실제 이미지 간 격차 해결 필요
모델 적용
GAN 계열: StyleGAN, CycleGAN
3D Object Detection: PointNet, PointNet++
장점.
활용 사례
자율주행 시뮬레이션 데이터 생성
로봇 시뮬레이션, 가상 훈련
VR/AR 환경 학습용
대표 데이터 셋
설명 : 진단, 연구용으로 특수 센서로 촬영한 이미지.
특성
모달리티 다양: X-ray, CT, MRI, 초음파, 현미경
2D 또는 3D 볼륨 데이터
단일 채널 혹은 다중 채널, 픽셀 값 단위가 정규화 필요
높은 정밀도 요구 → Annotation 비용 높음
AI/ML 처리 전략.
전처리 :
Intensity Normalization, Histogram Equalization
3D 볼륨 → 2D 슬라이스 분리
모델 적용
2D/3D CNN, DenseNet, ResUNet
Segmentation: U-Net, nnU-Net
Detection: Faster R-CNN, YOLOv8 적용 가능
기술적 고려.
활용 사례
폐 결절, 뇌종양 자동 검출
세포 분석 및 분류
위성/환경 분석에서 다중 밴드 활용
대표 데이터 셋
특성
1채널 흑백 또는 3채널 RGB
OCR 대상: 글자, 표, 도형
손글씨, 스캔 품질, 폰트 다양성 문제 존재
AI/ML 처리 전략.
전처리 : Binarization, Denoising, Deskew, Morphological Transform
모델 적용
CRNN (CNN + RNN) → 순서 정보 학습
Transformer 기반 OCR: TrOCR, Donut
Layout Analysis: Detectron2, LayoutLMv3
데이터 증강(Augmentation)
활용 사례
문서 자동 분류 및 정보 추출
송장, 영수증 데이터 디지털화
PDF/스캔 문서 OCR
대표 데이터 셋
특성
다중 밴드(Multi-spectral) 또는 하이퍼스펙트럼(Hyper-spectral)
1~12 이상 채널, 높은 스펙트럼 분해능
시계열 가능: 작물 성장, 환경 변화
AI/ML 처리 전략.
전처리 :
Radiometric Calibration, Atmospheric Correction
PCA, NDVI, Vegetation Index 활용
모델 적용
CNN, UNet, DeepLabV3+ (Segmentation)
RNN/LSTM/Temporal CNN (Time Series)
Attention 기반 모델: Transformer
기술적 고려.
활용 사례
농업: 작물 질병, 성장 상태 분석
환경: 산불, 홍수, 토지 변화 감지
GIS: 도시계획, 도로/건물 추출
대표 데이터 셋
특성
(T × H × W × C) 구조, 시간 축 포함
연속된 이미지 → 움직임, 행동 정보 포함
Frame Rate, Resolution, Duration 고려
AI/ML 처리 전략.
전처리 :
Frame Sampling, Optical Flow 계산
Temporal Normalization
모델 적용
3D CNN, ConvLSTM
Video Transformer (Swin Transformer, Timesformer)
Action Recognition: C3D, I3D
기술적 고려.
Temporal Dependency 중요
Multi-modal (영상 + 오디오) 가능
활용 사례
행동 인식, 스포츠 분석
객체 추적, 모션 분석
이상 행동 감지, 스마트 CCTV
대표 데이터 셋