last update 24.12.05
개념
- 기존의 데이터를 변형하거나 가공하여 새로운 데이터를 생성하는 기술
- 딥러닝/머신러닝에서의 데이터 부족 문제 완화
- 모델의 일반화 성능 향상
- 컴퓨터 비전, 자연어 처리, 시계열 데이터 등 다양한 도메인에서 사용 가능
데이터 증강의 필요성
- 데이터 부족 문제 해결
- 딥러닝 모델은 대규모 데이터셋에서 학습해야 하지만, 대부분의 경우 충분한 데이터를 수집하는 것이 어려움
- 과적합 방지
- 증강된 데이터는 모델이 특정 데이터에 과적합되지 않도록 도움
- 모델 일반화 성능 향상
- 다양한 변형 데이터를 학습하여 새로운 데이터에서도 잘 작동하도록 함
- 데이터 불균형 해소 가능
- 클래스 간 데이터 수가 불균형한 경우, 소수 클래스의 데이터를 증강하여 균형 맞추기 가능
데이터 증강의 종류
- 데이터 증강 기법은 주로 컴퓨터 비전, 자연어 처리, 시계열 데이터 등 다양한 분야에서 다르게 적용됨
(나중에 .. 해당 데이터 다룰 때 다시 정리하겠습니다 ..)
주의사항
- 다룰려고 하는 도메인에 대한 깊은 이해가 필요함
- 모든 증강 기법이 모든 문제에 적합한 것은 아님
- 잘못된 증강은 데이터의 의미를 왜곡하거나 성능 저하를 시킬 수 있음
- 증강 기법을 선택할 때 해당 데이터와 문제 도메인에 적합한 방법을 적용해야 함 이미지 데이터 예시
- 의료 영상
- 의료영상(CT, X-ray등)에서는 회전이나 확대/축소는 허용
- 그러나 색상 변형이나 강한 노이즈 추가는 병변 패턴 왜곡 가능성 있음
- 적절한 증강 기법: 회전, 이동, 확대
- 부적절한 증강 기법: 색상 변화, 가우시안 노이즈
- 증강 과다 방지: 지나친 증강은 데이터 특성을 왜곡할 수 있음
- 증강과 원본 데이터의 비율 조정: 원본 데이터 대비 증강 데이터 비율을 적절히 설정
- 실험적 평가: 증강이 모델 성능에 미치는 영향을 지속적으로 평가
참고자료
데이터 증강이란 무엇인가요?