doc classification

suhan jo·2024년 8월 14일

개요:

17개의 문서 클래스 분류

문제점:

3,7,14(비슷한 모양 문서)를 제외한 문서는 분류

해결방법:

  1. test와 동일한 데이터셋으로 만들기
    1) augraphy 사용(texture 등 노이즈)
    2) Albumantation 사용(padding 맞추기, 사이즈 맞추기)
    3) 사용자 증강(mixup, 6분할 크롭, 텍스트 추출 후 새로운 데이터셋 생성)
  2. validation셋을 같은 비율로 나누기(stratified)
  3. lr schduler, 오프라인 증강
  4. top3 복잡한 모델 사용해보며 성능 확인
  5. 다양한 스케일로 시도
  6. tts 시도

사용이유

  1. augrapy를 활용해 test 문서 이미지와 유사한 노이즈를 구현 가능
  2. padding과 board를 흰색으로 하여 test와 유사하게 만듦
  3. 6분할을 통해 이미지의 제목과 형식들 다양하게 학습 할 수 있도록 함.
  4. lr scheduler을 비교하면서 local minimum에 빠지지 않도록함.
  5. soft voting등 앙상블 시도와 복잡한 모델을 통해 성능을 향상 시키기 위해 시도
  6. 복잡한 모델이기에 이미지 스케일도 바꿔가면서 성능을 올림
  7. tts를 통해 테스트 데이터를 모델이 평가하는데 도움이 될 수 있도록 함.

0개의 댓글