모델의 복잡성이나 구조를 개선하는 데 중점을 두는 Model-centric 접근과는 달리, 데이터의 품질, 다양성, 유용성을 개선하는 데 집중하는 방식
데이터 중심 접근의 핵심 아이디어는 좋은 데이터가 좋은 성능을 낸다는 것입니다. 복잡한 모델 구조나 하이퍼파라미터 튜닝만으로는 한계가 있을 수 있지만, 고품질의 데이터는 모델 성능을 근본적으로 끌어올릴 수 있음.
데이터 정제: 데이터에서 오류나 노이즈를 제거하고, 일관성을 유지하는 작업
데이터 증강: 데이터셋을 다양한 방식으로 변환하여 양을 늘리고, 모델이 다양한 상황에 대해 학습할 수 있도록 함.
레이블 개선: 지도학습에서 레이블의 정확성과 일관성을 높이는 것이 중요한데, 잘못된 레이블이 있으면 학습된 모델의 성능에 부정적인 영향을 줄 수 있음.
피처 엔지니어링: 모델이 데이터를 더 잘 이해할 수 있도록 새로운 피처(특성)를 추가하거나 기존 피처를 개선하는 과정.
불균형 데이터 처리: 클래스 불균형이나 데이터 편향 문제를 해결하여, 데이터가 실제 세계를 더 잘 반영할 수 있도록 함
오늘날의 AI 시스템들은 점점 더 복잡해지고 있지만, 결국 모델이 학습하는 데이터가 가장 중요하다. 고성능 모델을 만드는 것도 중요하지만, 많은 연구와 실험을 통해 좋은 데이터가 모델의 성능을 극대화할 수 있기 때문이다.