[프로젝트 1 - 이미지 처리] 1. EDA

Jade·2021년 3월 29일
1

부스트캠프 AI Tech

목록 보기
31/54

프로젝트 1 - 이미지 처리

  • EDA
  • 과제 분석
  • 다시 EDA

[EDA]

EDA가 뭔데?
Exploratory Data Analysis (탐색적 데이터 분석)
데이터를 잘 파악하기 위해 관찰하거나 시각화하는 등 데이터를 이해하기 위한 노력이다.


[과제 분석]

시작하기 전에 요구사항과 데이터를 살펴보자!

  • 대회의 목적?
    이미지 분류. 사람들의 사진을 받아서 마스크를 착용했는지 여부와 성별, 연령대를 판별하는 것이다. 마스크 착용 여부(3가지), 성별(2가지), 나이(3가지)를 기준으로 하여 이미지를 총 18가지 클래스로 분류해야 한다.

  • 데이터!
    마스크를 착용하거나 착용하지 않은 20~70대의 아시아인 남녀
    데이터는 384x512 크기의 이미지 데이터 31500장으로, 이 중 60%인 18900장이 학습 데이터, 나머지 12600장이 테스트 데이터다.

    학습 데이터와 함께 각 학습 데이터에 대한 성별, 인종, 나이와 이미지 파일의 위치가 들어 있는 메타데이터가 주어진다. 테스트 데이터로는 파일명이 암호화된 상태의 이미지가 주어진다.

  • 모델!
    이미지 분류 모델을 설계해서 테스트 데이터셋에 대한 예측 결과를 (이미지 이름, 클래스) 형식 csv 파일로 만들어서 제출하면 된다.

[다시 EDA]

데이터의 분포를 살펴보자!

  • 성별 데이터 분포

여성이 조금 더 많다.

  • 연령별 데이터
    60대 이상 데이터가 현저하게 부족하다. 학습 잘 되려나?

  • 클래스별 분포
    모든 클래스별 분포는 위의 그래프와 같다. 60대 이상, 마스크를 제대로 쓰지 않은 경우, 마스크를 쓰지 않은 경우의 데이터가 상대적으로 매우 부족하기 때문에 모델을 학습할 때 외부 데이터를 구해서 보충해 넣을 수 있다면 좋을 것 같다.

profile
반가워용

0개의 댓글