모델 크기와 성능 둔화

Youngho LEE·2025년 9월 7일

모델 파라미터만 키우면 초반엔 좋아지지만, 곧 멱법칙(scaling law) 상의 한계·데이터 병목·학습/추론 자원 불균형 때문에 체감 성능 향상 기울기가 급격히 작아진다. 즉, 더 큰 모델이 “훈련할 양질의 정보·적정 학습 스텝·테스트타임 추론”을 함께 늘리지 않으면 수익 체감(diminishing returns)이 온다.

왜 둔화되나? (핵심 메커니즘 8가지)

  1. 스케일링 법칙의 기울기 감소
  2. 데이터 병목(품질·양·중복)
    • 고품질 토큰이 부족하거나 중복이 많으면 새 정보 밀도(정보 엔트로피 감소)가 낮아져 더 큰 모델이 배울 유효 신호가 줄어든다.
    • 데이터 오염(벤치마크 누출·라벨 노이즈)도 하한선을 만든다.
  3. Compute-optimal 불균형
    • 파라미터를 키우면 학습 토큰·스텝·배치도 같이 늘어야 합니다. 그렇지 않으면 미숙련(undertrained) 상태 → “모델은 크지만 충분히 배우지 못해” 효율 급락.
    • 실무 경험칙: 파라미터 대비 훈련 토큰 비율을 충분히 확보(대략 두 자릿수 배 수준)하지 않으면 둔화가 빨리 시작된다.
  4. 최적화·표현 한계
    • 더 깊고 큰 네트워크는 장기 의존학습/안정성이 어려워집니다(폭주/드리프트, LR·배치·정규화 민감).
    • 컨텍스트 길이/주의(Attention) 복잡도 제약(기본 O(n²))이 길이 일반화와 추론력을 제한.
  5. 사전학습 목표와 최종 과제의 불일치
    • 다음 토큰 예측(크로스엔트로피)을 아무리 잘해도 도구 사용·계획·합의추론 같은 다운스트림 능력은 별도 학습/세밀한 데이터가 필요.
  6. 테스트타임(추론) 자원 부족
    • 큰 모델일수록 테스트타임 계산을 늘려야(예: Chain-of-Thought, self-consistency, 탐색) 성능이 계속 오릅니다. 추론 비용을 고정하면 잠재력 미개방.
  7. 하드웨어·통신 병목
    • 메모리 대역폭/통신(DDP, ZeRO) 병목 때문에 효율이 떨어지고, 같은 예산에서 유효 업데이트 수가 줄어 실질 성능 향상이 둔화.
  8. 벤치마크 천장·평가 포화
    • 기존 벤치마크가 쉬워지면 점수는 포화되지만 일반화/현실 성능이 따라오지 않아 “커졌는데 안 좋아졌다”로 체감된다.
profile
개발자

0개의 댓글