1. LLM 추론에는 왜 돈이 드나?
ChatGPT, Gemini 같은 대규모 언어 모델(LLM)은 추론할 때마다 실제로 GPU·TPU 같은 고성능 연산 장비를 사용합니다.
이 과정은 단순한 프로그램 실행이 아니라 수십억~수천억 개의 파라미터를 가진 신경망을 거치는 대규모 행렬 연산이기 때문에, 장비 사용 시간에 비례해 비용이 발생합니다.
비용이 드는 주요 이유는 다음과 같습니다.
- 인풋 토큰 처리 비용: 입력된 프롬프트를 벡터로 변환하고, 모든 레이어를 거치며 Key/Value를 계산 후 KV 캐시에 저장.
- 아웃풋 토큰 생성 비용: 토큰을 하나씩 예측하고, 매번 모든 레이어 연산을 거쳐 새로운 토큰을 생성.
즉, 인풋과 아웃풋 모두 GPU 연산 자원을 소모하므로, 둘 다 과금 대상입니다.
2. LLM 비용을 부르는 이름들
업계에서는 LLM 실행 비용을 다음과 같이 부릅니다.
- Inference Cost (추론 비용) – 모델 실행 시 발생하는 전체 연산 비용.
- Per-token Cost (토큰 단위 비용) – 입력/출력 토큰 1,000개 단위의 과금.
- Serving Cost (서빙 비용) – 항상 대기 상태를 유지하며 요청을 처리하는 인프라 비용까지 포함.
- Compute Cost (연산 비용) – 하드웨어 연산 자체의 순수 비용.
3. 인풋 vs 아웃풋, KV 캐시가 만드는 연산 차이
LLM 추론은 크게 인풋 단계와 아웃풋 단계로 나뉩니다.
(1) 인풋 단계 – 풀 시퀀스 연산
- 모든 입력 토큰을 모델에 한 번에 넣고, 각 토큰의 Key/Value를 계산.
- Key/Value를 레이어별로 KV 캐시에 저장.
- 연산량은 크지만 한 번에 병렬 처리 가능 → Batch-friendly.
(2) 아웃풋 단계 – 순차 생성
📌 비유
- 인풋: 책 한 권 전체를 스캔해 색인을 만드는 과정(시간 많이 걸리지만 한 번에 가능).
- 아웃풋: 색인을 보고 페이지를 하나씩 복사하는 과정(빠르지만 반복되면 비용 누적).
4. 왜 아웃풋 토큰이 더 비싼가?
대부분의 LLM API 가격표를 보면 아웃풋 1K 토큰 가격이 인풋보다 2~3배 높습니다.
그 이유는 다음과 같습니다.
- 순차 연산 특성 – 병렬 효율이 낮고, 매번 모든 레이어를 거쳐야 함.
- GPU 점유 시간 증가 – 사용자 연결을 유지하며 토큰을 하나씩 생성.
- Batch 처리 어려움 – 요청별 토큰 생성 속도가 달라서 묶기 힘듦.
- 레이턴시 비용 – GPU를 오래 붙잡고 있어야 하므로 기회비용 발생.
5. 실제 가격 예시 (OpenAI, 2025년 초)
모델 | 인풋(1K tokens) | 아웃풋(1K tokens) |
---|
GPT-4o | $0.005 | $0.015 |
GPT-4 Turbo | $0.01 | $0.03 |
GPT-3.5 Turbo | $0.0005 | $0.0015 |
➡ 공통적으로 아웃풋 단가 ≈ 인풋 단가 × 3 패턴이 보임.
6. 정리
- LLM 추론 비용은 GPU 연산 + 인프라 운영 + 연결 유지 비용이 합쳐진 값.
- 인풋: 한 번에 병렬 처리 가능 → 효율 높아 단가 낮음.
- 아웃풋: 순차 생성, 병렬성 낮음, GPU 점유 시간 길어 단가 높음.
- 비용 구조를 이해하면 프롬프트 최적화와 토큰 관리 전략을 세우는 데 도움이 됨.