데이터 증강(Data Augmentation)이란?
원본 데이터를 일정한 규칙으로 변형해 레이블은 유지하면서 학습용 샘플 수•다양성을 늘리는 기법. 실제 데이터를 더 모으기 어려운 상황에서도 모델이 더 다양한 패턴을 보도록 만들어 overfitting을 줄이고 일반화를 높인다.
학습에 유효한 변형을 이용해 모델이 더 넓은 입력 분포를 보도록 하여 일반화를 돕는다.
주로 사용하는 증강 기법은?
- 위치•방향•비율이 달라져도 같은 클래스로 인식하도록 만듦
- flip, random rotation, shift, padding, crop, scale, resize 등
- 색 조명 변경
- color jitter, grayscale, gaussian 등
- 정보 제거
- cutout, random erasing
- 샘플 믹스 (결정 경계를 부드럽게 함)
- mixup, cutmix
출처
IBM
aws