Definition
- 데이터 어노테이션은 훈련 데이터(텍스트, 이미지, 오디오, 비디오 등)의 개별 요소에 주석을 달아 기계가 데이터 내용과 중요한 부분을 이해하도록 돕는 과정입니다.
예를 들어, 이미지에 있는 사람이나 물체에 '이것은 사람', '이것은 자동차'와 같은 태그를 붙이는 것을 말합니다.
Annotation vs Labeling
- 데이터 어노테이션은 데이터에 주석을 달아주는 작업을 의미합니다. 예를 들어, 이미지 데이터에 어노테이션을 하면 사람의 얼굴, 물체의 종류 등 이미지의 각 요소에 대한 상세한 정보를 제공합니다.
- 데이터 라벨링은 데이터를 특정 범주로 분류하는 작업을 의미합니다. 예를 들어, 이미지 데이터를 라벨링하면 이미지의 전체 또는 특정 부분을 '사람', '동물', '자연' 등의 범주로 분류할 수 있습니다.
중요성
- 지도학습에서 입력 데이터의 품질이 머신 러닝 모델의 성능을 결정합니다.
- 데이터 유형의 이해: 데이터는 구조화된 데이터와 비구조화된 데이터로 분류됩니다. 예를 들어, 구조화된 데이터는 엑셀 시트에 나열된 고객 정보 같은 것이고, 비구조화된 데이터는 소셜 미디어의 텍스트나 이미지 같은 것입니다.
종류
텍스트 어노테이션
- Named Entity Recognition (NER): 텍스트 내 개별 엔티티를 식별합니다. 예: '서울은 도시입니다'에서 '서울'을 '도시'로 식별.
- Sentiment Tagging: 텍스트의 감정적 톤을 분류합니다. 예: '이 제품은 정말 좋아요!'는 긍정적 감정으로 분류.
- Semantic Annotation: 텍스트의 의도나 맥락을 이해하는 데 도움을 줍니다. 예: '나는 창문을 닫았다'는 행동을 설명합니다.
이미지 어노테이션
- Image Bounding Boxes: 이미지 내 특정 객체를 식별하고 라벨을 붙입니다. 예: 공원의 사진에서 사람, 벤치, 나무에 박스를 그림.
- Image Classification: 이미지를 하나 이상의 범주로 분류합니다. 예: 산의 이미지를 '자연' 범주로 분류.
비디오 어노테이션
- 비디오 프레임 내 객체 식별, 분류, 추적: 비디오 내의 객체를 식별하고, 분류하며, 필요한 경우 여러 프레임에 걸쳐 추적합니다. 예: 도로 위를 달리는 자동차를 비디오의 각 프레임에서 추적.