Data-Centric: 데이터 중심 접근법

국부은하군·2024년 11월 1일
1

Data-Centric & Dataset

목록 보기
1/9
post-thumbnail

Data-Centric AI

AI서비스의 개발 사이클

AI_System=Code(model/algorithm)+DataAI\_System = Code(model/algorithm) + Data

AI 시스템(서비스)은 데이터를 처리하는 코드(모델/알고리즘)와 학습을 위한 정보(데이터)가 함께 작용해 결과를 도출하는 구조로 이루어집니다.

Data-Centric AI란 무엇인가?

Data-Centric AI는 기존의 Model-Centric 접근과는 반대되는 개념으로, 모델링을 통한 성능 향상이 아닌 데이터를 통한 성능 향상을 도모합니다. 즉, 모델을 고정하고 데이터의 품질을 향상시키는 데 중점을 둔 AI 개발 방법입니다. 이 접근법은 데이터 관리(Data Management), 데이터 증강(Data Augmentation), 데이터 필터링(Data Filtering), 합성 데이터(Synthetic Data) 생성 및 라벨 일관성(Label Consistency) 확보 등을 통해 AI 모델의 성능을 높이는 데 주안점을 둡니다.

  • 목표: 데이터의 일관성을 확보하고, 데이터 내의 노이즈를 줄이며, 적절한 데이터 라벨링을 통해 모델이 학습할 데이터의 질을 높이는 것이 목표입니다.
  • 핵심 질문: "모델을 변경하지 않고 성능을 어떻게 향상시킬 수 있을까?"라는 질문을 바탕으로 데이터 품질 관리(Data Quality Control)와 증강(Augmentation), 데이터 평가(Data Evaluation) 등을 통해 성능을 최적화하는 방법을 모색합니다.

Data-Centric AI의 주요 접근법

DCAI의 주요 접근법은 데이터 관리에 대한 다양한 방법론을 포함합니다:

  • 이상치(outlier) 탐지 및 제거: 데이터셋 내 비정상적인 샘플을 식별하여 제거함으로써 모델의 안정성을 높입니다.
  • 오류 탐지 및 수정: 잘못된 값이나 라벨을 찾아 수정하여 데이터의 신뢰도를 높입니다.
  • 데이터 증강: 데이터를 추가하여 학습에서 사전 지식을 더 많이 반영할 수 있도록 합니다.
  • 피처 엔지니어링 및 선택: 데이터가 표현되는 방식을 조정하여 모델이 더 효율적으로 학습할 수 있게 합니다.
  • Establishing Consensus Labels: 여러 사람의 라벨링 결과를 바탕으로 가장 신뢰성 있는 라벨을 결정하는 방식 정합니다.
  • Active Learning: 모델에게 가장 도움이 될 데이터를 선택적으로 라벨링하는 방식입니다.
  • 커리큘럼 학습(Curriculum Learning): 쉬운 예제부터 어려운 예제 순으로 학습을 진행하여 모델의 학습 효율을 높입니다.

Model-Centric vs. Data-Centric AI

Model-Centric 접근법과 Data-Centric 접근법은 AI 성능 개선을 위한 접근방식이 근본적으로 다릅니다:

  • Model-Centric: 가능한 많은 데이터를 수집하고, 이를 바탕으로 새로운 모델 구조를 제안하거나 모델의 복잡성을 증가시켜 성능을 높입니다.
  • Data-Centric: 모델을 고정하고 데이터의 품질을 개선하여 성능을 높이는 방법으로, 모델의 성능 향상에 필요한 데이터를 정제하고, 일관성을 확보하며, 노이즈를 제거하는 등의 과정을 통해 최적의 성능을 추구합니다.
데이터 수집 시 우선사항Model-Centric viewData-Centric view
최대한 많은 Data 수집Model의 구조 수정Data의 일관성
성능 향상 방법- 새로운 Model Architecture 제안
- Model의 구조 수정
- Data를 고정하고, Model을 개선함
- Data의 질을 향상시킴
- Model을 고정하고, Data를 개선함

Data-Centric AI의 실제 적용사례

DCAI는 AI 서비스의 성능을 높이기 위한 데이터 관리 및 개선 작업을 통해 산업계와 실생활에 폭넓게 적용됩니다. 대표적인 사례로는 ChatGPT와 Tesla의 데이터 관리가 있습니다:

  • ChatGPT: OpenAI는 ChatGPT의 성능을 개선하기 위해 데이터의 질을 엄격히 관리하였습니다. 인적 평가를 통해 부적절한 데이터에 낮은 가중치를 부여함으로써, 유해하거나 비진실적인 출력을 최소화하고 데이터 일관성을 높였습니다.
  • Tesla: Tesla는 자율주행 시스템에서 모델 출력을 활용하여 훈련 데이터셋을 향상시키고 있습니다. 이를 통해 모델이 예측에 실패하는 사례를 분석하고, 이러한 케이스에 대한 데이터를 추가로 수집 및 라벨링하여 성능을 높이고 있습니다.

산업계의 DCAI 운영 방식

업계에서는 Data FlywheelDMOps와 같은 개념을 통해 데이터의 지속적인 품질 향상과 업데이트를 수행하고 있습니다.

  • Data Flywheel: AI 모델의 학습 및 개선 과정에서 반복적으로 데이터의 품질을 높여가는 선순환 구조를 의미합니다.
  • Data Labeling Tool: AI 학습을 위해 데이터에 빠르고 정확하게 라벨을 붙이는 과정을 지원하는 도구입니다.
  • DMOps: Data Management Operation and Recipes로, 데이터 관리와 개선을 위한 일련의 프로세스를 구축하고, 데이터 라벨링 툴 등을 통해 자동화 및 효율화를 도모합니다.
    DMOps

AI 서비스에서의 데이터 팀모델 팀서빙 팀의역할

  • 데이터 팀: 모델 학습에 필요한 데이터를 수집, 정제, 라벨링하고 품질을 관리합니다. 이들은 데이터의 일관성과 정확성을 유지하여, 모델이 최상의 데이터로 학습될 수 있도록 지원합니다.
  • 모델 팀: 데이터 팀이 준비한 데이터를 기반으로 모델을 개발하고, 최적의 성능을 내도록 하이퍼파라미터 튜닝 및 모델 아키텍처를 개선합니다. 이 팀은 모델의 성능을 지속적으로 모니터링하고, 필요시 모델을 업데이트하여 최신 데이터를 반영합니다.
  • 서빙 팀: 학습된 모델을 실제 사용자에게 제공하기 위한 시스템을 개발하고 운영합니다. 서빙 팀은 모델이 안정적이고 신속하게 응답할 수 있도록 배포 전략을 설계하고, 서비스 중 발생하는 문제를 해결하여 모델의 지속 가능한 운영을 보장합니다.

학계에서의 Data-Centric AI 연구

학계에서도 데이터 중심 AI 연구가 활발히 진행되고 있지만, 몇 가지 어려움이 존재합니다. 주요 도전 과제는 다음과 같습니다:

  • 데이터 품질의 중요성: 데이터의 양보다는 질이 중요하다는 인식이 확산되고 있으며, 특히 높은 품질의 데이터 확보가 어려운 점이 학계에서도 큰 도전 과제임을 의미합니다.
  • 라벨링 비용: 정확한 라벨링을 위해서는 많은 시간과 비용이 필요하며, 라벨링의 정답이 명확하지 않은 경우도 많습니다.
  • 정해진 데이터셋 내에서의 경쟁: 학계에서는 보통 데이터셋이 갖춰진 상태에서 모델의 개선을 위한 연구들이 많습니다. 그러나 실제 서비스 환경에서는 주어진 서비스의 요구사항에 맞는 데이터셋이 필요합니다.

좋은 데이터를 만들려면?

데이터의 질은 양보다 중요합니다. 아래의 그림에서 처럼 데이터가 적더라도 높은 질의 데이터는 올바른 학습을 유도할 수 있습니다.

  • 데이터 균형: 데이터셋의 불균형 문제는 모델의 학습 결과에 부정적인 영향을 줄 수 있어, 다양한 케이스가 균형 잡히게 포함된 데이터셋이 요구됩니다.

    이를 해결하기 위해 DataPerf와 같은 벤치마크 시스템이 도입되어 데이터 품질을 평가하고 개선하기 위한 다양한 지표와 방법론을 제공합니다.

DataPerf

  • ML 데이터 품질 향상을 위해 Data-Centric 파이프라인의 주요 단계를 벤치마크
  • 데이터셋을 쉽고 반복 가능하게 유지 관리 및 평가
  • 모델은 고정하고, 데이터셋만 개선하여 정확도를 향상시킬 수 있는 벤치마크 태스크를 정함.

DCAI의 발전 방향과 학계-산업 협력

Data-Centric AI는 산업과 학계에서 점차 중요한 연구 분야로 자리 잡고 있으며, 데이터 품질 개선을 위한 다양한 연구 및 협력 프로젝트가 진행 중입니다. 여러 기관과 기업에서 데이터 중심 AI 개발의 가이드라인 및 벤치마크를 제공하여 학계와 산업계 간의 간극을 줄이려는 노력을 기울이고 있습니다.

profile
생각, 기술, 회고 등 다양한 분야를 기록합니다.

0개의 댓글