데이터 라벨링 (Data Labeling)
데이터 라벨링이란 이미지, 영상, 텍스트 등의 데이터에 사람이 데이터 가공 도구를 활용하여 인공지능이 학습할 수 있도록 다양한 정보를 목적에 맞게 입력하는 것을 의미한다.
라벨링 방법?
데이터 라벨링 도구를 사용함.
- CVAT (Computer Vision Annotation Tool) 무료
- Make Sense
- Roboflow
등..
라벨링 툴에서 많이 사용하는 기능
- Bounding box : 물체를 직사각형 박스 안에 포함되도록 그리는 방법
- Polygon : 다각형 모양으로 객체의 가시 영역 외곽선을 따라 점을 찍어 그리는 방법
- Polyline : 여러 개의 점을 가진 선을 활용하여 특정 영역을 라벨링하여 인도, 차선 구분 등 활용
- Point : 특정 지점을 라벨링하는 작업으로 안면 인식을 통한 감정 분석과 같이 정밀하고 섬세한 작업
유명한 라벨링 양식
- 어노테이션 파일 : 라벨, 어노테이션 정보가 기록된 파일. classification은 별도 파일 불필요. detection, segmentation을 위한 학습을 위해서는 어노테이션 파일 필요
- 학습을 위한 데이터 읽기와 일반적인 표현 방법
- 학습을 위해 필요한 내용 : 이미지파일 특정 id, 이미지 어노테이션 정보
- 이미지 파일 특정 id : 파일명, 파일주소
- 어노테이션 정보 : 라벨, Bbox 구성 좌표, Polygon 구성 좌표 등
Bbox 양식 중 우리가 사용할 COCO 양식은 (x, y, w, h)로 구성