Data Augmenation

예갈조·2024년 12월 30일

Tumor Track Project

목록 보기
22/25

last update 24.12.05

개념


  • 기존의 데이터를 변형하거나 가공하여 새로운 데이터를 생성하는 기술
  • 딥러닝/머신러닝에서의 데이터 부족 문제 완화
  • 모델의 일반화 성능 향상
  • 컴퓨터 비전, 자연어 처리, 시계열 데이터 등 다양한 도메인에서 사용 가능



데이터 증강의 필요성


  • 데이터 부족 문제 해결
    • 딥러닝 모델은 대규모 데이터셋에서 학습해야 하지만, 대부분의 경우 충분한 데이터를 수집하는 것이 어려움
  • 과적합 방지
    • 증강된 데이터는 모델이 특정 데이터에 과적합되지 않도록 도움
  • 모델 일반화 성능 향상
    • 다양한 변형 데이터를 학습하여 새로운 데이터에서도 잘 작동하도록 함
  • 데이터 불균형 해소 가능
    • 클래스 간 데이터 수가 불균형한 경우, 소수 클래스의 데이터를 증강하여 균형 맞추기 가능



데이터 증강의 종류


  • 데이터 증강 기법은 주로 컴퓨터 비전, 자연어 처리, 시계열 데이터 등 다양한 분야에서 다르게 적용됨

(나중에 .. 해당 데이터 다룰 때 다시 정리하겠습니다 ..)



주의사항


  • 다룰려고 하는 도메인에 대한 깊은 이해가 필요함
    • 모든 증강 기법이 모든 문제에 적합한 것은 아님
    • 잘못된 증강은 데이터의 의미를 왜곡하거나 성능 저하를 시킬 수 있음
    • 증강 기법을 선택할 때 해당 데이터와 문제 도메인에 적합한 방법을 적용해야 함 이미지 데이터 예시
      • 의료 영상
        • 의료영상(CT, X-ray등)에서는 회전이나 확대/축소는 허용
        • 그러나 색상 변형이나 강한 노이즈 추가는 병변 패턴 왜곡 가능성 있음
        • 적절한 증강 기법: 회전, 이동, 확대
        • 부적절한 증강 기법: 색상 변화, 가우시안 노이즈
  • 증강 과다 방지: 지나친 증강은 데이터 특성을 왜곡할 수 있음
  • 증강과 원본 데이터의 비율 조정: 원본 데이터 대비 증강 데이터 비율을 적절히 설정
  • 실험적 평가: 증강이 모델 성능에 미치는 영향을 지속적으로 평가





참고자료

데이터 증강이란 무엇인가요?

0개의 댓글