Goal of the Competition
- Classification Problem
분류문제로, 17종의 문서타입을 분류하는 Task수행.
Timeline
Metric
f1-score를 사용하였습니다.
모델이 예측한 것이 실제로 얼마큼 맞는지 정밀도(precision)
모델이 예측한 것중에 실제 틀린것이 얼만큼 맞는지 재현율(recall)
Describe the data EDA that your team faced during the project.
학습데이터는 1570쌍의 데이터를 가지고 있고, class는 총 17개의 문서타입을 가지고 있다. 평가데이터는 3140개의 데이터를 분류하는 것이다.
전체적인 흐름(floww chart)
문서 데이터들은 각 문서끼리의 차이가 크게 나는 것도 있고, 문서의 특징이 구별되지 않는 경우(노이즈)의 영향이 있다. 따라서 모델의 학습간에 validation을 계속 확인하면서, Augmentation전략을 지속적으로 수정하며 성적향상을 이루었다.
데이터 기초통계
학습 이미지를 정규화하기 전의 최소값이 (-2.11 ~ -1.80) 평균값이 대략 (0.388 ~ 0.807)로 정규화 전의 이미지가 차이가 있음을 보였다.
그리고, 17개의 클래스가 1번, 13번, 14번 클래스에서 데이터 불균형이 있음을 확인 가능함.
데이터의 정규화
이미지 데이터의 정규화(0.5, 0.5)로 실험해본 결과, 다음과 같이 설적 향상이 이루어진 것을 볼 수 있다. 정규화가 성적향상에서는 기울기의 업데이트가 일정 수 만큼 지속적으로 이루어지는것으로 global 최소에 일정비율만큼 작아짐.
Describe your role with task in your team.
Explain which are relevant for your Project.
Feature Engineering. 학습된 이미지의 conv level을 보면 이미지의 대략적인 코너, 선, 박스, 검은부분들을 학습하는 것을 확인가능함.
또한, 4개의 데이터에서 모델이 학습시에 입퇴원확인서, 진단서, 의료 낭ㅂ입 확인서, 소견서 데이터의 영향이 발생함.
다음으로, 하이퍼 파라미터를 튜닝하기 위해 5가지로 진행함.
그리고, 불균형 데이터를 focal loss로 해결하기 위하여 진행하였고, weight를 직접 죽어 class를 잘 맞히도록 loss에 영향을 주었다.
Write the main result of Competition
Final standings of the Leaderboard