LLM 추론 비용 구조 완벽 이해: 인풋과 아웃풋은 왜 다르게 과금될까?

Bean·2025년 8월 12일
0

인공지능

목록 보기
107/123

1. LLM 추론에는 왜 돈이 드나?

ChatGPT, Gemini 같은 대규모 언어 모델(LLM)은 추론할 때마다 실제로 GPU·TPU 같은 고성능 연산 장비를 사용합니다.
이 과정은 단순한 프로그램 실행이 아니라 수십억~수천억 개의 파라미터를 가진 신경망을 거치는 대규모 행렬 연산이기 때문에, 장비 사용 시간에 비례해 비용이 발생합니다.

비용이 드는 주요 이유는 다음과 같습니다.

  • 인풋 토큰 처리 비용: 입력된 프롬프트를 벡터로 변환하고, 모든 레이어를 거치며 Key/Value를 계산 후 KV 캐시에 저장.
  • 아웃풋 토큰 생성 비용: 토큰을 하나씩 예측하고, 매번 모든 레이어 연산을 거쳐 새로운 토큰을 생성.

즉, 인풋과 아웃풋 모두 GPU 연산 자원을 소모하므로, 둘 다 과금 대상입니다.


2. LLM 비용을 부르는 이름들

업계에서는 LLM 실행 비용을 다음과 같이 부릅니다.

  1. Inference Cost (추론 비용) – 모델 실행 시 발생하는 전체 연산 비용.
  2. Per-token Cost (토큰 단위 비용) – 입력/출력 토큰 1,000개 단위의 과금.
  3. Serving Cost (서빙 비용) – 항상 대기 상태를 유지하며 요청을 처리하는 인프라 비용까지 포함.
  4. Compute Cost (연산 비용) – 하드웨어 연산 자체의 순수 비용.

3. 인풋 vs 아웃풋, KV 캐시가 만드는 연산 차이

LLM 추론은 크게 인풋 단계아웃풋 단계로 나뉩니다.

(1) 인풋 단계 – 풀 시퀀스 연산

  • 모든 입력 토큰을 모델에 한 번에 넣고, 각 토큰의 Key/Value를 계산.
  • Key/Value를 레이어별로 KV 캐시에 저장.
  • 연산량은 크지만 한 번에 병렬 처리 가능 → Batch-friendly.

(2) 아웃풋 단계 – 순차 생성

  • 새로운 토큰 1개를 생성할 때마다:

    1. 마지막 토큰을 모델에 넣음.
    2. 기존 KV 캐시를 불러와 어텐션 수행.
    3. Softmax + 샘플링 → 다음 토큰 예측.
  • 매 토큰마다 이 과정을 반복 → 병렬화가 어렵고 GPU 점유 시간이 길어짐.

📌 비유

  • 인풋: 책 한 권 전체를 스캔해 색인을 만드는 과정(시간 많이 걸리지만 한 번에 가능).
  • 아웃풋: 색인을 보고 페이지를 하나씩 복사하는 과정(빠르지만 반복되면 비용 누적).

4. 왜 아웃풋 토큰이 더 비싼가?

대부분의 LLM API 가격표를 보면 아웃풋 1K 토큰 가격이 인풋보다 2~3배 높습니다.
그 이유는 다음과 같습니다.

  1. 순차 연산 특성 – 병렬 효율이 낮고, 매번 모든 레이어를 거쳐야 함.
  2. GPU 점유 시간 증가 – 사용자 연결을 유지하며 토큰을 하나씩 생성.
  3. Batch 처리 어려움 – 요청별 토큰 생성 속도가 달라서 묶기 힘듦.
  4. 레이턴시 비용 – GPU를 오래 붙잡고 있어야 하므로 기회비용 발생.

5. 실제 가격 예시 (OpenAI, 2025년 초)

모델인풋(1K tokens)아웃풋(1K tokens)
GPT-4o$0.005$0.015
GPT-4 Turbo$0.01$0.03
GPT-3.5 Turbo$0.0005$0.0015

➡ 공통적으로 아웃풋 단가 ≈ 인풋 단가 × 3 패턴이 보임.


6. 정리

  • LLM 추론 비용은 GPU 연산 + 인프라 운영 + 연결 유지 비용이 합쳐진 값.
  • 인풋: 한 번에 병렬 처리 가능 → 효율 높아 단가 낮음.
  • 아웃풋: 순차 생성, 병렬성 낮음, GPU 점유 시간 길어 단가 높음.
  • 비용 구조를 이해하면 프롬프트 최적화와 토큰 관리 전략을 세우는 데 도움이 됨.

profile
AI developer

0개의 댓글