[Data Centric] Lifecycle of AI Project

HipJaengYiCat·2023년 5월 23일

실무에서 AI프로젝트 생애주기는 어떻게 될까? SW2.0으로 인한 패러다임으로 데이터셋 제작의 중요성이 대두 되었고, 생애주기에도 데이터셋 제작의 중요성이 강조되었다.
실제 상품화되는 모델의 성능을 개선하고 유지보수하는데 좋은 데이터를 확보하는 것은 매우 중요하다.

AI Research vs AI Production

AI Research
정해진 데이터셋과 평가 방식으로 더 좋은 모델을 찾음
AI Production
데이터셋은 준비되어 있지 않고 서비스 요구사항만 존재함, 따라서 서비스에 적용되는 AI 개발 업무의 상당 부분이 데이터셋을 준비하는 작업임

-> 이때 서비스를 위한 요구사항을 충족시키는 모델을 지속적으로 확보하는 것이 중요한다
-> 이 방법은 데이터를 통해 모델 성능을 끌어올리는 방법과 모델 성능을 끌어올리는 방식이 있다.

데이터 관련 업무가 많은 이유

학계에서 데이터를 다루기 힘든 이유
1. 좋은 데이터를 많이 모으기 힘듦
2. 라벨링 비용이 크다
3. 작업 기간이 오래 걸린다

-> 데이터가 많다고 모델 성능이 항상 올라가는 것이 아니다, 따라서 제대로된 라벨링이 중요하다. 하지만 데이터 라벨링 작업 생각보다 많이 어렵다

=> 라벨링 노이즈는 학습에 얼마나 영향을 줄까?
=> 라벨링 노이즈를 학습 시 무시하게 하려면 적어도 깨끗이 라벨링된 결과가 2배 이상 필요하다

=> 그렇다면 양이 적더라도 제대로된 데이터만 있으면 괜찮을까?
=> 적은 데이터도 골고루 있어야지 너무 유사한 데이터만 있으면 좋은 모델을 확보하기 힘들다

Common : 자주 보는 샘플은 라벨링 작업자도 인지하고 있고, 작업 가이드를 만들 때 해당 데이터를 고려해서 만들기 때문에 라벨링 노이즈가 적다
Rare : 희귀 케이스인 경우 작업 가이드에서 다루지 않을 수도 있고, 라벨링 작업자별로 다르게 생각해 작업할 가능성이 크다
ex)