Data Centric AI 강의 후기

이다언·2025년 2월 26일

업스테이지 업스테이지AI 패스트캠퍼스

그 동안 여러번의 경진대회 동안 내가 계속 노력했던 분야는 모델이 아닌 데이터였다.
문제의 근원을 파헤치다보니 자연히 어떤 데이터가 필요한지에 눈길이 가게 되었다.
실제로 어떤 데이터셋으로 모델을 훈련시키느냐에 따라 평가점수가 눈에 띄게 달라졌었다.
모델 내부에 무작위값을 랜덤하게 생성하는 부분을 모두 고정시켜야만 데이터 자체만의 영향을 평가할 수 있었다.
데이터는 모델의 파라미터(편향과 가중치)를 수정하는 유일한 방법이다.
모델의 하이퍼파라미터로 변경할 수 있는 건 모델에게 있어서 매우 피상적 수준의 변형이라 드라마틱한 효과를 볼 수 없었다.
하지만 데이터를 변경하면 크던 적던, 성능이 향상되건 하락하건 확실한 결과가 나타났었다.
실제로 AI 프로젝트에서 80% 성능향상은 데이터에서 일어나고, 실제로 가장 많은 시간을 공수가 투입되는 곳도 데이터이다.
그래서 Data Centric AI라는 말이 생겨나게 되었다. 모델을 중점으로 성능향상을 꾀하지 않고 데이터 중심으로 문제 해결의 실마리를 찾는 것이다.
앞으로 모델은 천하통일이 될 것이고, 결국은 드라마틱한 성능차이를 보이게 될 부분은 각 도메인과 회사별 데이터를 어떻게 잘 분류하고 정돈해서 모델에게 먹였는지일 것이다.
그래서 AI를 위한 데이터만 전문으로 컨설팅하는 분야도 잘 될 것이다.
데이터 라벨링하는 인력이 많이 필요하고 LLM으로 라벨링하거나 합성데이터를 생성하여 모델학습에 사용할 수도 있다.

데이터 클렌징

사람이 직접 (공수가 심함)
규칙 기반으로 사이클을 돌린다 (일관성과 정확도를 늘린다)
- 규칙적인 라벨링 에러가 별로 없음
- 코딩하는데 많은 시간 소요
공수가 적게 드는 LLM이 한다 (LLM as Judge)
- 데이터는 학습 데이터 뿐만 아니라, 모델이 추론한 값도 클렌징이 가능하다. 인간이 하던 판단기능을 LLM이 대신 한다.

이다언

AI 클라우드 웹개발자

이전 포스트

LLM (Agent) 프로젝트 회고

다음 포스트

Data Centric AI 강의 후기

데이터 클렌징

LLM (Agent) 프로젝트 회고

IR (Information Retrieval) 경진대회 회고

0개의 댓글