재활용 쓰레기 Dataset EDA

err·2021년 9월 30일
0

기본 정보

1. 데이터셋 통계

  • 전체 이미지 개수 : 9754장 [train : 4883, test : 4871]
  • 10 class
    [General trash, Paper, Paper pack, Metal, Glass, Plastic, Styrofoam, Plastic bag, Battery, Clothing]
  • 이미지 크기 : (1024, 1024)

2. 데이터의 전체 구성

dataset
├── train.json
├── test.json
├── train
└── test
  • annotation file : json/coco_format

  • coco format

    • images: [id, height, width]

      • filename: ex) train/002.jpg
    • annotations: [id, bbox, area, category_id, image_id]

EDA

통계(Statistics)

1. basic_info(sample(10))

2. Describe

1. 비 정상적인 사이즈의 데이터가 존재함

  • min_sqrt_area : 0.75
  • max_sqrt_area : 1023.9

2. 오브젝트의 위치가 테두리를 포함해 전체 영역에 걸쳐있음

  • min_(X,Y) : 0
  • max_(X,Y) : 1015.4, 1011.5

3. Class 분포

  • 심각한 class imbalance

4. Image별 통계

1. Image별 Describe

  • 보통 이미지당 5개의 물체, 2종류의 물체를 포함하고 있음

2. plot

이미지당 포함된 물체의 종류 수에 따른 전체 물체 수 그래프

  • 당연하게도 이미지당 포함된 물체의 수물체 종류의 수가 어느정도 비례하는것으로 보이나, 물체의 수물체 종류의 수가 증가할수록 데이터 수가 매우 작아지기 때문에 유의해야한다.
  • 전반적으로 아웃라이너가 매우 많다.
  • 이미지중에 7종류의 물체를 71개 포함한 독보적인 친구가 존재한다.

5. Class별 통계

1. Object 크기

  • 붉은 점선은 전체 평균값을 의미, 좌우 plot간에 클래스별 색상이 다른점을 유의
  • 평균적인 물체 크기는 한 변의 길이가 50~150px 정도에 위치하고있음
  • 매우 큰 물체도 다수 존재하여 평균값 자체는 꽤 높은편

2. 그냥 그리다가 마음에 들었음

3. Class별 높이, 폭간의 상관관계

  • 맨 아래 클래스별 그래프를 첨부하였음
  • Bettery를 제외한 나머지는 별다른 특이점이 없음
  • Bettery의 크기는 일반적으로 가로로 길다고 볼 수 있으나 개체수가 매우 적음을 유의해야 함

4. Class별 높이, 폭간의 상관관계(분할)

  • 주로 [General trash, Paper, Plastic bag] Class에서 높이와 폭이 해상도와 비슷한 데이터가 확인됨

5. Class별 X, Y 좌표의 분포


  • 위에서 말했듯이 테두리를, 중심 가리지 않고 매우 골고루 분포하고 있음
  • X, Y 값에 따른 특별한 상관관계는 보이지 않음
  • X=0 | Y=0 근처에 빼곡한 점들 확인이 필요해 보임

Data Visualization

매우 큰 물체를 포함하는 사진들

  • 줌 당겨 사진, 봉투 안을 찍은 사진 등 배경에 대한 처리도 필요해 보임

X=0 | Y=0 근처에 물체 포함한 사진

  • 매우 이상한 부포를 보여 확인해봤으나 큰 이상은 발견하지 못함
  • 다만 임의로 중간을 Crop해 버린 느낌이라 가장자리의 물체를 감지하는건 매우 어려워 보임

우측, 하단부에 매우 미세한 픽셀로 물체가 있는경우

  • 사실상 찾기 불가능한 것들

매우 작은 해상도의 물체들

  • 위의 이미지랑 겹칠 것으로 예상됨
  • 사람 눈으로도 구분하기 힘들어보임

[하이라이트] 무자비하게 라벨링된 이미지들

  • 이런것들은 포기하는것이 방법일지도...?

기타

  • 종이뭉치

ref

네이버 커넥트재단 - 재활용 쓰레기 데이터셋 / CC BY 2.0

0개의 댓글

관련 채용 정보