Data Centric AI 강의 후기

이다언·2025년 2월 26일
  • 그 동안 여러번의 경진대회 동안 내가 계속 노력했던 분야는 모델이 아닌 데이터였다.
  • 문제의 근원을 파헤치다보니 자연히 어떤 데이터가 필요한지에 눈길이 가게 되었다.
  • 실제로 어떤 데이터셋으로 모델을 훈련시키느냐에 따라 평가점수가 눈에 띄게 달라졌었다.
  • 모델 내부에 무작위값을 랜덤하게 생성하는 부분을 모두 고정시켜야만 데이터 자체만의 영향을 평가할 수 있었다.
  • 데이터는 모델의 파라미터(편향과 가중치)를 수정하는 유일한 방법이다.
  • 모델의 하이퍼파라미터로 변경할 수 있는 건 모델에게 있어서 매우 피상적 수준의 변형이라 드라마틱한 효과를 볼 수 없었다.
  • 하지만 데이터를 변경하면 크던 적던, 성능이 향상되건 하락하건 확실한 결과가 나타났었다.
  • 실제로 AI 프로젝트에서 80% 성능향상은 데이터에서 일어나고, 실제로 가장 많은 시간을 공수가 투입되는 곳도 데이터이다.
  • 그래서 Data Centric AI라는 말이 생겨나게 되었다. 모델을 중점으로 성능향상을 꾀하지 않고 데이터 중심으로 문제 해결의 실마리를 찾는 것이다.
  • 앞으로 모델은 천하통일이 될 것이고, 결국은 드라마틱한 성능차이를 보이게 될 부분은 각 도메인과 회사별 데이터를 어떻게 잘 분류하고 정돈해서 모델에게 먹였는지일 것이다.
  • 그래서 AI를 위한 데이터만 전문으로 컨설팅하는 분야도 잘 될 것이다.
  • 데이터 라벨링하는 인력이 많이 필요하고 LLM으로 라벨링하거나 합성데이터를 생성하여 모델학습에 사용할 수도 있다.

데이터 클렌징

  • 사람이 직접 (공수가 심함)
  • 규칙 기반으로 사이클을 돌린다 (일관성과 정확도를 늘린다)
    • 규칙적인 라벨링 에러가 별로 없음
    • 코딩하는데 많은 시간 소요
  • 공수가 적게 드는 LLM이 한다 (LLM as Judge)
    • 데이터는 학습 데이터 뿐만 아니라, 모델이 추론한 값도 클렌징이 가능하다. 인간이 하던 판단기능을 LLM이 대신 한다.
profile
AI 클라우드 웹개발자

0개의 댓글