Data centric AI

Nary Kim·2024년 10월 4일
0

Upstage AI lab 3기

목록 보기
16/17
post-thumbnail

근래 3개월동안 계속 대회를 진행하였는 데, 그때마다 드는 생각은

" 데이터를 이렇게 전처리하면 훨씬 좋은 결과가 있었을 것이다."

좋은 결과를 내는 데에는 물론 모델의 선택도 매우 중요한 요소이지만, 그보다 선행되어야 하는 것이 주제, 목적에 맞는 좋은 데이터로 기존의 데이터를 정제하는 것 이라고 생각한다. Data-Centric AI는 이것에 대한 좀더 심화된 이야기를 해주고, 산업에서는 어떻게 적용되는지 김남혁 강사님을 통하여 좀더 자세하게 들을 수 있는 기회가 되었다.

확실히 좋은 모델들의 접근이 좋아진 지금, 결국 경쟁력을 가지려면 데이터의 적절한 가공이 아닐까 생각된다. 아래는 Data-Centric AI에 대한 대략적 설명이다.


Data-Centric AI

데이터를 중심으로 AI 시스템을 개발하고 개선하는 접근 방식이다. 기존의 AI 개발은 모델 아키텍처나 알고리즘의 개선에 중점을 두었지만, 데이터 중심 AI는 고품질 데이터를 확보하고 이를 관리하는 데 초점을 맞춘다.

주요 개념과 특징은 다음과 같다:

1. 데이터 품질 향상

  • AI 모델 성능을 높이기 위해서는 데이터의 질을 개선하는 것이 핵심이다. 불필요하거나 오류가 있는 데이터를 제거하고, 주석 오류를 수정하며, 데이터의 다양성과 균형을 맞추는 것이 중요하다.
  • 예를 들어, 데이터가 불균형할 경우(특정 클래스의 데이터가 지나치게 많거나 적은 경우), 데이터를 증강하거나 추가로 수집해 성능을 높일 수 있다.

2. 라벨링 개선

  • 데이터 중심 AI에서는 라벨링의 정확성과 일관성이 매우 중요하다. 라벨링 오류를 줄이고, 일관성 있게 데이터를 주석화하는 것이 모델 성능 향상에 직접적으로 기여한다.
profile
나는 무엇이 될것인가!!

0개의 댓글