모델을 경량화하면 VRAM 사용량이 정확히 절반으로 줄까요?
정답은 "대체로 절반 이하"입니다. 그 이유를 파라미터, 활성화 값, KV 캐시라는 세 가지 핵심 요소로 나누어 살펴보겠습니다.
모델의 가중치와 편향 값.
VRAM 소모량 계산:
파라미터 수 × 데이터 타입 크기(bytes)
FP32: 4B / FP16: 2B / INT8: 1B / INT4: 0.5B
예) FP16 기반 3천만 파라미터 → 약 57MB 차지.
파라미터 수를 절반으로 줄이면, 이 부분은 거의 정확히 절반으로 감소.
각 레이어의 중간 계산 결과.
추론 시: 이전 레이어의 값을 덮어써서 저장 → 레이어 수에 직접 비례하지 않음.
학습 시: 역전파를 위해 모든 레이어의 활성화 값을 저장 → VRAM 소모량이 급증.
크기 영향 요소:
생성형 모델의 VRAM 절감 핵심 포인트.
이전 토큰의 Key/Value를 저장해 재계산 방지.
크기 비례 관계:
배치 사이즈 × 시퀀스 길이 × 레이어 수 × 헤드 수 × 헤드 차원
레이어 수에 선형적으로 비례하므로, 14개 → 4개로 줄이면 약 72% 절감 가능.
원본: 인코더 6개 + 디코더 8개 → 총 14개 레이어 스택
경량화: 인코더 2개 + 디코더 2개 → 총 4개 레이어 스택
결과:
히든 디멘션
, 어텐션 헤드 수
, 시퀀스 길이
등 구조적 설정에 따라 달라집니다.💡 Tip: 모델 경량화로 VRAM을 아낄 수 있지만, 구조 변경 방식에 따라 절감 폭이 달라집니다. 특히, KV 캐시 비중이 큰 생성형 모델은 레이어 수 감소 효과가 매우 크다는 점을 기억하세요.