[Data Labeling] 1. Data Labeling
Data Labeling
- 확보한 raw data를 유의미한 작업에 사용하도록 데이터를 만드는 작업
- 기계학습, 딥러닝에서 인송지능이 학습에 필요한 데이터를 만드는 작업
- labeling, annotation, tagging이라고 부르기도 한다
- computer vision에서는 주로 이미지에 필요한 작업에 대해 결과를 미리 입력하는 작업
- classification은 이미지에 해당하는 class 정보를 입력한다
- detection은 이미지에 대상 object의 bbox와 class 정보를 입력한다
- 이렇게 만들어진 데이터는 모델이 만들어낼 수 있는 최대 검출 또는 분류 성능이 될 수 있고, 또 다른 데이터를 만들어내는 재료가 되기도 한다
- 데이터를 잘 만드는 것은 매우 중요하다
- 잘못된 데이터를 사용하는 것은 잘못된 모델을 선택하는 것보다 결과에 영향을 크게 미친다
- 따라서 데이터 검증을 미리 잘 하는 것이 중요하다
학습 데이터를 직접 만들어야 하는 이유
- 현실에서는 다양한 이유로 학습 데이터를 직접 만들 수밖에 없다
- 지속적으로 데이터를 만들어야한다
- 각 회사마다 풀어야하는 문제가 다르다
: 공개된 데이터셋에 없는 세부적인 객체가 필요한 경우가 있다
- 주어진 환경과 조건이 다르다
: 공개된 데이터셋과 다른 환경에서 문제를 풀어야하는 경우가 있다
- 환경은 늘 변화한다
: 시간, 날씨, 데이터 취득 환경과 실제 적용 환경, 대상이 변하는 경우가 있다