개요:
17개의 문서 클래스 분류
문제점:
3,7,14(비슷한 모양 문서)를 제외한 문서는 분류
해결방법:
- test와 동일한 데이터셋으로 만들기
1) augraphy 사용(texture 등 노이즈)
2) Albumantation 사용(padding 맞추기, 사이즈 맞추기)
3) 사용자 증강(mixup, 6분할 크롭, 텍스트 추출 후 새로운 데이터셋 생성)
- validation셋을 같은 비율로 나누기(stratified)
- lr schduler, 오프라인 증강
- top3 복잡한 모델 사용해보며 성능 확인
- 다양한 스케일로 시도
- tts 시도
사용이유
- augrapy를 활용해 test 문서 이미지와 유사한 노이즈를 구현 가능
- padding과 board를 흰색으로 하여 test와 유사하게 만듦
- 6분할을 통해 이미지의 제목과 형식들 다양하게 학습 할 수 있도록 함.
- lr scheduler을 비교하면서 local minimum에 빠지지 않도록함.
- soft voting등 앙상블 시도와 복잡한 모델을 통해 성능을 향상 시키기 위해 시도
- 복잡한 모델이기에 이미지 스케일도 바꿔가면서 성능을 올림
- tts를 통해 테스트 데이터를 모델이 평가하는데 도움이 될 수 있도록 함.