CVAT (Computer Vision Annotation Tool) 내용 정리

Seung Woo·2025년 4월 3일

CVAT (Computer Vision Annotation Tool)

1. CVAT 실습에 들어가기에 앞서

개발 목적 및 환경, 유동성 여부에 따라 동일한 원시 데이터라고 해도 필요한 데이터 유형이 다르다. 그러므로 각 상황에 맞게 라벨링을 할 수 있는 능력을 함양하기 위해 라벨링 툴인 CVAT를 실습해보고자 한다.

CVAT는 이미지 또는 비디오에 메타데이터(이미지 정보) 나 레이블을 부여하는(컴퓨터 비전) 툴. 즉 서론에서 기술했던 데이터 라벨링과 컴퓨터 비전을 위한 서비스이다.

위 사진을 보자. 백조 사진은 백조의 형상을 따라서 라벨링 해주었지만, 컵 사진은 배경을 포함하여 라벨링을 진행했다.

이렇게 만든 데이터를 학습시킨다면, 배경과 같이 "컵"이라고 학습해버리기 때문에 주변 환경이 조금만 바뀌어도 컵을 인식하기 어려워질 것이다.

그러면, 첫번째 사진 처럼 형상을 따서 데이터를 변형해주어야 하는데, 이렇게 되면 데이터 라벨링 작업이 매우 길어지고 귀찮아질게 뻔하다.

CVAT은 AI 추론 모델을 이용하여 Tracking 기능을 구현했는데, 이를 사용하면 사물을 표시해주는 것만으로도 사물의 형상을 추론하여 아래와 같이 형상화 해준다.

인공지능 학습을 위해 인공지능을 사용하는 셈.

CVAT 사이트 : https://www.cvat.ai/