프로젝트 1 - 이미지 처리
- EDA
- 과제 분석
- 다시 EDA
EDA가 뭔데?
Exploratory Data Analysis (탐색적 데이터 분석)
데이터를 잘 파악하기 위해 관찰하거나 시각화하는 등 데이터를 이해하기 위한 노력이다.
시작하기 전에 요구사항과 데이터를 살펴보자!
384x512
크기의 이미지 데이터 31500장으로, 이 중 60%인 18900장이 학습 데이터, 나머지 12600장이 테스트 데이터다.데이터의 분포를 살펴보자!
여성이 조금 더 많다.
연령별 데이터
60대 이상 데이터가 현저하게 부족하다. 학습 잘 되려나?
클래스별 분포
모든 클래스별 분포는 위의 그래프와 같다. 60대 이상, 마스크를 제대로 쓰지 않은 경우, 마스크를 쓰지 않은 경우의 데이터가 상대적으로 매우 부족하기 때문에 모델을 학습할 때 외부 데이터를 구해서 보충해 넣을 수 있다면 좋을 것 같다.