[프로젝트 3 - Segmentation] 1. EDA

Jade·2021년 4월 26일
0

부스트캠프 AI Tech

목록 보기
44/54

프로젝트 3 - EDA

  • COCO 데이터셋
  • EDA
  • metric

[COCO 데이터셋]

detection, segmentation에 많이 사용되는 데이터셋
data.json과 같은 annotation(Ground Truth) 파일이 존재함

  • COCO format
    다음과 같은 .json 파일을 통해 각 이미지의 annotation 정보가 주어진다.
{
  "info" : {...}, # discription, verson, contributor 등 이미지의 high level 정보
  "licenses" : [...],
  "images" : [...], # 데이터셋의 전체 이미지 목록, 각각의 width, height, 파일명 등의 메타 정보
  "annotations" : [...], # 이미지 id, 카테고리, 박스 위치 등 자세한 레이블 정보
  
  # 주의 : 하나의 이미지 안에 여러 개의 객체가 존재할 수 있기 때문에
  # annotation의 길이는 이미지의 수보다 클 수 있음
}

annotations 키에는 다음과 같은 값들이 들어 있다.

"annotations" :
[
  {
    "image_id" : 0,
    "category_id" : 6,
    "segmentation" : [[173,61], [173,62], ...] # segmentation 영역 픽셀들의 좌표 전부 
    "area" : 606046 # 넓이
    "bbox" : [831.0, 619.0, 1379.0, 764.0] # 박스 좌상단의 x좌표, y좌표, 너비, 높이
    "iscrowd" : 0
    "id": 0
  },
    
    ... 
]
    

이미지 shape : (batch, 3채널, height, width)
타겟 shape : (batch, height, width)


[EDA]

  • 이미지 크기 : 512x512x3채널

  • 이미지 종류 : 재활용 가능한 다양한 쓰레기들

  • 주의할 점 : 한 이미지 내에 다양한 클래스가 포함되어 있을 가능성이 있음!
    crop이나 cutmix 등이 augmentation 효과가 있을지도?

  • 참고) 이번 대회에서는 제공되는 이미지 크기가 전부 512x512 크기지만 그렇지 않은 경우도 많다. 그럴 때는 테스트 데이터에 학습 데이터의 크기를 맞추는 편

  • 하나의 image 안에 등장하는 object의 수를 보면 대개 1~9개 정도다. 일부 outlier 데이터는 객체 수가 굉장히 많은 경우도 있다.


[metric]

모델의 성능을 비교할 때, 실험 조건을 통제하기 위해 시드를 고정해야 한다.
(파이썬 시드와 라이브러리 시드 모두 고정)

  • TP, TN, FP, FN

  • Precision/Recall
    Precision : 예측한 것들 중에 모델이 얼마나 맞췄나?
    Recall : 실제 레이블이 1인 것 중 모델이 얼마나 맞췄나?

    만약 모델이 라이터가 5개 있는 사진에서 8개를 검출했는데 그 중 4개가 옳은 검출이었다면
    Precision : 총 8개 검출했으며 그 중 4개가 옳은 검출. 4/8 = 0.5
    Recall : 총 5개의 GT 중 4개를 검출함. 4/5 = 0.8

  • PR curve
    모든 예측에 대해 각각 TP, FP 여부를 계산한다. 클래스별로 TP, FP의 수를 누적해 나가며 precision과 recall을 n회(클래스에 속한 이미지 수만큼) 계산한다. 모든 예측에 대해 계산되었다면 y축이 precision, x축이 recall인 그래프를 그린다. 이 그래프가 PR curve다.

  • AP (Average Precision) : PR curve의 아래쪽 면적. k개 클래스에 대해 각각 계산한다.

  • mAP (mean Average Precision)
    k개 클래스 AP의 평균

  • mIoU
    Ground Truth과 예측 픽셀의
    교집합 영역 / 합집합 영역

profile
반가워용

0개의 댓글