가이드라인은 좋은 데이터를 확보하기 위한 과정을 정리한 문서
👉 깃헙 컨벤션을 다루는 것처럼, 협업에 필요한 세팅을 가이드한다고 보면 된다.
위 이미지에서 처럼
자주 보는 샘플 -> 노이즈 적음
적게 보는 샘플 -> 노이즈 많음
따라서 이러한 특이경우를 발견하고 해당 샘플들을 확보하려고 노력해야 하며, 이를 포함한 라벨링 가이드를 만들어야 한다.
학습목적에 따라 어떤게 맞을지 알 수 있따.
가이드라인 작성 시 고려되는 내용
기본적인용어정의
Annotation(Labeling)규칙
• BBOX작업방식정의
• 작업불가이미지(HOLD이미지)정의
• 작업불가영역(illegibility=True)영역정의
• 작업대상영역
최종format
구부러진 polygon point 를 중점으로 사각형 박스가 만들어지는 것이 좋다.
가로로 있는 text랑 세로로 있는 text 완전 세로 text로 각각 봐야함.-> 이를 라벨순서대로 정해주어서 어떻게 처리할 것인지에 대한 '합의'가 필요함.
Rule 1: 글자를 알아보기 어려울 정도로 밀도가 높거나, 글자가 일부 뭉개져서 알아보기 어려운 영역에 대해서 illegibility: True
Rule 2: 글자가 존재하지만,글자가 겹쳐져 있거나 잘려있어 육안상 글자를 정확하게 입력할 수 없다면 illegibility:True
예시임.
가장 중요한 것은 일관성이다. 같은 케이스를 다르게 처리하는 경우가 없도록 하는 것이 중요하다.
또한 가이드라인에도 우선 순위 가 필요하다.!!
IAA 는 어노테이터가 생성한 레이블이 얼마나 일관성 있는지에 대해서 측정.
2명이상의 어노테이터가 생성한 레이블이 얼마나 일관성 있는지
3명이상의 어노테이터가 생성한 레이블이 얼마나 일관성 있는지에 관한 지표
: avg. distance observed
: avg. distance expected
KS : 관찰한 데이터가 주어진 분포에서 표집되었는지를 검정하기 위한 통계량
KS: Kolmogorov-Smirnov 통계 값으로, 두 데이터 집합의 누적 분포 함수(CDF) 간의 최대 차이를 측정합니다.
max : 모든 𝑥 값에 대해 차이가 최대가 되는 지점을 찾는다는 의미입니다. KS 통계는 두 분포 간의 차이가 가장 큰 지점에서의 차이를 기반으로 계산됩니다.
: 관찰된 데이터 의 누적분포함수 나타내며, 이는 관찰된 데이터가x 이하일 확률을 의미합니다.
: 예상된 데이터 의 누적분포함수. 비교 대상이 되는 이론적 또는 추정된 분포를 기준으로 함.