AI_Tech부스트캠프 week9...[9] 데이터 구축 작업 설

Leejaegun·2024년 10월 31일
0

AI_tech_CV트랙 여정

목록 보기
35/74

1. 데이터셋 제작과 가이드라인

가이드라인은 좋은 데이터를 확보하기 위한 과정을 정리한 문서

1.1 가이드라인이란?

가이드라인: 좋은데이터를 확보하기 위한과정을 정리해 놓은 문서

  • 데이터 구축의 목적
  • 라벨링 대상 이미지 소개
  • 기본적인 용어 정의
    • BBOX,“전사”,“태그"등등
  • Annotation규칙
    • 작업 불가 이미지 정의
    • 작업불가영역(illegibility=True)영역정의
    • BBOX 작업방식정의
    • 최종 format

👉 깃헙 컨벤션을 다루는 것처럼, 협업에 필요한 세팅을 가이드한다고 보면 된다.

위 이미지에서 처럼
자주 보는 샘플 -> 노이즈 적음
적게 보는 샘플 -> 노이즈 많음

따라서 이러한 특이경우를 발견하고 해당 샘플들을 확보하려고 노력해야 하며, 이를 포함한 라벨링 가이드를 만들어야 한다.

가이드 라인의 필요성-학습목적

학습목적에 따라 어떤게 맞을지 알 수 있따.

가이드 라인 3가지 요소

  • 특이 케이스
  • 단순함
  • 명료함

1.2 학습데이터셋 제작 파이프라인

ex1) Crawling

ex2) Crowd Sourcing

2. 가이드라인 작성 고려사항

2.1 개요

가이드라인 작성 시 고려되는 내용
기본적인용어정의
Annotation(Labeling)규칙
• BBOX작업방식정의
• 작업불가이미지(HOLD이미지)정의
• 작업불가영역(illegibility=True)영역정의
• 작업대상영역
최종format

Annotation 규칙 : HOLD 이미지 기준

Annotation 규칙 : BBOX 작업 방식 정의-Points 영역

Annotation 규칙 : BBOX작업방식 정의-구부러진 글자영역


구부러진 polygon point 를 중점으로 사각형 박스가 만들어지는 것이 좋다.

Annotation 규칙: BBOX작업방식 정의- 진행방향 및 그에 따른 좌표순서


가로로 있는 text랑 세로로 있는 text 완전 세로 text로 각각 봐야함.-> 이를 라벨순서대로 정해주어서 어떻게 처리할 것인지에 대한 '합의'가 필요함.

Annotation 규칙: 작업불가 영역-예시

Rule 1: 글자를 알아보기 어려울 정도로 밀도가 높거나, 글자가 일부 뭉개져서 알아보기 어려운 영역에 대해서 illegibility: True

Rule 2: 글자가 존재하지만,글자가 겹쳐져 있거나 잘려있어 육안상 글자를 정확하게 입력할 수 없다면 illegibility:True

Annotation 규칙 : 최종포멧

예시임.

2.2 노하우:가이드라인 구성요소

업로드중..
가장 중요한 것은 일관성이다. 같은 케이스를 다르게 처리하는 경우가 없도록 하는 것이 중요하다.

또한 가이드라인에도 우선 순위 가 필요하다.!!

2.3 가이드라인으로 데이터 구축하기

3. Metrics for Data Evaluation

3.1 Inter-Annotator Agreement(IAA)

IAA 는 어노테이터가 생성한 레이블이 얼마나 일관성 있는지에 대해서 측정.

Cohen's Kappa

2명이상의 어노테이터가 생성한 레이블이 얼마나 일관성 있는지

k=PobservedPexpected1Pexpectedk =\frac{P_{observed} -P_{expected}}{1-P_{expected}}

Fleiss' Kappa

3명이상의 어노테이터가 생성한 레이블이 얼마나 일관성 있는지에 관한 지표

k=PPexpected1Pexpectedk = \frac{\overline P - \overline P_{expected}}{1-\overline P_{expected}}

Krippendorff's Alpha

α=1D^oD^e\alpha = 1- \frac{\hat D_o}{\hat D_e}

D^o\hat D_o : avg. distance observed
D^e\hat D_e : avg. distance expected

3.2 Recent Work in Data Measurement

KS(Kolmogorov-Smirnov) Test statistics

KS : 관찰한 데이터가 주어진 분포에서 표집되었는지를 검정하기 위한 통계량

KS=maxx(P[Dox]P[Dex])KS = \underset{x}{\max} \left( P[D_o \leq x] - P[D_e \leq x] \right)
  • KS: Kolmogorov-Smirnov 통계 값으로, 두 데이터 집합의 누적 분포 함수(CDF) 간의 최대 차이를 측정합니다.

  • max : 모든 𝑥 값에 대해 차이가 최대가 되는 지점을 찾는다는 의미입니다. KS 통계는 두 분포 간의 차이가 가장 큰 지점에서의 차이를 기반으로 계산됩니다.

  • P[Dox]P[D_o \leq x] : 관찰된 데이터 DoD_o의 누적분포함수 나타내며, 이는 관찰된 데이터가x 이하일 확률을 의미합니다.

  • P[Dex]P[D_e \leq x] : 예상된 데이터 DeD_e의 누적분포함수. 비교 대상이 되는 이론적 또는 추정된 분포를 기준으로 함.

4. 참고자료

profile
Lee_AA

0개의 댓글

관련 채용 정보