Transformer 모델 경량화와 VRAM 소모량

Bean·2025년 8월 10일

인공지능

목록 보기

106/134

모델을 경량화하면 VRAM 사용량이 정확히 절반으로 줄까요?
정답은 "대체로 절반 이하"입니다. 그 이유를 파라미터, 활성화 값, KV 캐시라는 세 가지 핵심 요소로 나누어 살펴보겠습니다.

VRAM 소모량 계산:

파라미터 수 × 데이터 타입 크기(bytes)
FP32: 4B / FP16: 2B / INT8: 1B / INT4: 0.5B

크기 비례 관계:

배치 사이즈 × 시퀀스 길이 × 레이어 수 × 헤드 수 × 헤드 차원

원본: 인코더 6개 + 디코더 8개 → 총 14개 레이어 스택
경량화: 인코더 2개 + 디코더 2개 → 총 4개 레이어 스택
결과:
- 파라미터 메모리 절반 감소
- KV 캐시 메모리 72% 이상 감소
- 활성화 메모리는 추론 시 큰 폭 감소 (학습 시에는 영향 더 큼)

파라미터 절반 + KV 캐시 절감(70% 이상) 효과로, 경량화 모델의 VRAM 소모량은 원본 대비 절반 이하가 될 가능성이 높습니다.
구체적 수치는 히든 디멘션, 어텐션 헤드 수, 시퀀스 길이 등 구조적 설정에 따라 달라집니다.
따라서, "절반일까요?"라는 질문에 대한 가장 정확한 대답은
→ "절반 이하일 가능성이 크다" 입니다.

💡 Tip: 모델 경량화로 VRAM을 아낄 수 있지만, 구조 변경 방식에 따라 절감 폭이 달라집니다. 특히, KV 캐시 비중이 큰 생성형 모델은 레이어 수 감소 효과가 매우 크다는 점을 기억하세요.

AI developer