Data Augmentation

JJong·2025년 4월 15일

MACHINE LEARNING

목록 보기
10/10
post-thumbnail

Data Augmentation

정의

  • 기존 데이터셋을 변형하여 추가적인 학습 데이터를 생성하는 기법

  • 데이터에 약간의 노이즈 를 추가하거나, 데이터를 회전, 확대/축소, 반전 등의 방법으로 원본 데이터와는 조금 다른 새로운 데이터를 만드는 것을 말한다.

과정

  • 데이터 부족 문제 해결 : 딥러닝과 같은 복잡한 모델을 학습시킬 때 충분한 양의 학습 데이터가 필요. 추가적인 데이터를 수집하지 않고도 학습 데이터를 확장할 수 있다.

  • 오버피팅 방지 : 다양한 변형을 가진 데이터로 학습을 시키면 모델이 더 일반적인 특징을 학습하게 된다.

  • 데이터 다양성 증가 : 현업의 데이터는 항상 예측할 수 있는 다양성을 가지고 있다. Data Augmentation을 통해 다양성을 재현할 수 있다.


Data Augmentation 방법론

Image Data

  • 회전 : 이미지를 일정한 각도로 회전
  • 확대/축소 : 이미지의 특정 부분을 확대하거나 전체 이미지를 축소
  • 반전 : 이미지를 수평 또는 수직으로 뒤집기
  • 색상 변형 : 채도, 밝기, 대비 등을 조절하여 이미지의 색상을 변형
  • Cutout : 이미지 일부를 검은색 또는 다른 색상으로 가림

Text Data

  • Back Translation : 원본 텍스트를 다른 언어로 번역한 후 다시 원래 언어로 번역
  • 단어 삽입/제거/교체 : 무작위로 단어를 삽입하거나 제거하거나 동의어로 교체
  • 문장 순서 변경 : 문장 내에서의 단어나 구의 순서를 변경

Audio Data

  • Time Tretching : 오디오 속도를 조절하여 느리게 또는 빠르게 재생
  • Pitch Shifting : 오디오의 피치를 변경
  • Backgroud Noise Addition : 오디오에 배경 소음을 추가
profile
please bbbbbbbbb 😂

0개의 댓글