
기본 정보
1. 데이터셋 통계
- 전체 이미지 개수 : 9754장 [train : 4883, test : 4871]
- 10 class
[General trash, Paper, Paper pack, Metal, Glass, Plastic, Styrofoam, Plastic bag, Battery, Clothing]
- 이미지 크기 : (1024, 1024)
2. 데이터의 전체 구성
dataset
├── train.json
├── test.json
├── train
└── test
EDA
통계(Statistics)
1. basic_info(sample(10))

2. Describe

1. 비 정상적인 사이즈의 데이터가 존재함
- min_sqrt_area : 0.75
- max_sqrt_area : 1023.9
2. 오브젝트의 위치가 테두리를 포함해 전체 영역에 걸쳐있음
- min_(X,Y) : 0
- max_(X,Y) : 1015.4, 1011.5
3. Class 분포

4. Image별 통계
1. Image별 Describe

- 보통 이미지당 5개의 물체, 2종류의 물체를 포함하고 있음
2. plot
이미지당 포함된 물체의 종류 수에 따른 전체 물체 수 그래프

- 당연하게도 이미지당 포함된 물체의 수와 물체 종류의 수가 어느정도 비례하는것으로 보이나, 물체의 수와 물체 종류의 수가 증가할수록 데이터 수가 매우 작아지기 때문에 유의해야한다.
- 전반적으로 아웃라이너가 매우 많다.
- 이미지중에 7종류의 물체를 71개 포함한 독보적인 친구가 존재한다.
5. Class별 통계
1. Object 크기

- 붉은 점선은 전체 평균값을 의미, 좌우 plot간에 클래스별 색상이 다른점을 유의
- 평균적인 물체 크기는 한 변의 길이가 50~150px 정도에 위치하고있음
- 매우 큰 물체도 다수 존재하여 평균값 자체는 꽤 높은편
2. 그냥 그리다가 마음에 들었음

3. Class별 높이, 폭간의 상관관계

- 맨 아래 클래스별 그래프를 첨부하였음
- Bettery를 제외한 나머지는 별다른 특이점이 없음
- Bettery의 크기는 일반적으로 가로로 길다고 볼 수 있으나 개체수가 매우 적음을 유의해야 함
4. Class별 높이, 폭간의 상관관계(분할)
- 주로 [General trash, Paper, Plastic bag] Class에서 높이와 폭이 해상도와 비슷한 데이터가 확인됨

5. Class별 X, Y 좌표의 분포


- 위에서 말했듯이 테두리를, 중심 가리지 않고 매우 골고루 분포하고 있음
- X, Y 값에 따른 특별한 상관관계는 보이지 않음
X=0 | Y=0
근처에 빼곡한 점들 확인이 필요해 보임
Data Visualization
매우 큰 물체를 포함하는 사진들
- 줌 당겨 사진, 봉투 안을 찍은 사진 등 배경에 대한 처리도 필요해 보임

X=0 | Y=0
근처에 물체 포함한 사진
- 매우 이상한 부포를 보여 확인해봤으나 큰 이상은 발견하지 못함
- 다만 임의로 중간을 Crop해 버린 느낌이라 가장자리의 물체를 감지하는건 매우 어려워 보임

우측, 하단부에 매우 미세한 픽셀로 물체가 있는경우
- 사실상 찾기 불가능한 것들

매우 작은 해상도의 물체들
- 위의 이미지랑 겹칠 것으로 예상됨
- 사람 눈으로도 구분하기 힘들어보임

[하이라이트] 무자비하게 라벨링된 이미지들
- 이런것들은 포기하는것이 방법일지도...?

기타
- 종이뭉치

ref
네이버 커넥트재단 - 재활용 쓰레기 데이터셋 / CC BY 2.0