Transformer 모델 경량화와 VRAM 소모량

Bean·2025년 8월 10일
0

인공지능

목록 보기
106/123

🖥 딥러닝 모델 경량화와 VRAM 소모량: 절반일까, 절반 이하일까?

모델을 경량화하면 VRAM 사용량이 정확히 절반으로 줄까요?
정답은 "대체로 절반 이하"입니다. 그 이유를 파라미터, 활성화 값, KV 캐시라는 세 가지 핵심 요소로 나누어 살펴보겠습니다.


1. 모델 파라미터 (Model Parameters)

  • 모델의 가중치와 편향 값.

  • VRAM 소모량 계산:

    파라미터 수 × 데이터 타입 크기(bytes)
    FP32: 4B / FP16: 2B / INT8: 1B / INT4: 0.5B
  • 예) FP16 기반 3천만 파라미터 → 약 57MB 차지.

  • 파라미터 수를 절반으로 줄이면, 이 부분은 거의 정확히 절반으로 감소.


2. 활성화 값 (Activation Memory)

  • 각 레이어의 중간 계산 결과.

  • 추론 시: 이전 레이어의 값을 덮어써서 저장 → 레이어 수에 직접 비례하지 않음.

  • 학습 시: 역전파를 위해 모든 레이어의 활성화 값을 저장 → VRAM 소모량이 급증.

  • 크기 영향 요소:

    • 배치 사이즈
    • 시퀀스 길이
    • 히든 디멘션 크기

3. KV 캐시 (Key-Value Cache)

  • 생성형 모델의 VRAM 절감 핵심 포인트.

  • 이전 토큰의 Key/Value를 저장해 재계산 방지.

  • 크기 비례 관계:

    배치 사이즈 × 시퀀스 길이 × 레이어 수 × 헤드 수 × 헤드 차원
  • 레이어 수에 선형적으로 비례하므로, 14개 → 4개로 줄이면 약 72% 절감 가능.


4. 구조 변경 효과: 인코더/디코더 예시

  • 원본: 인코더 6개 + 디코더 8개 → 총 14개 레이어 스택

  • 경량화: 인코더 2개 + 디코더 2개 → 총 4개 레이어 스택

  • 결과:

    • 파라미터 메모리 절반 감소
    • KV 캐시 메모리 72% 이상 감소
    • 활성화 메모리는 추론 시 큰 폭 감소 (학습 시에는 영향 더 큼)

5. KV 캐시를 쓰지 않는다면?

  • 매 토큰마다 전체 시퀀스를 다시 계산 → VRAM 절감 가능하지만 속도 심각하게 저하.
  • 긴 시퀀스에서는 오히려 VRAM 폭증 가능.
  • 현실적으로 생성 모델에서는 KV 캐시 사용이 필수.

📊 결론

  • 파라미터 절반 + KV 캐시 절감(70% 이상) 효과로, 경량화 모델의 VRAM 소모량은 원본 대비 절반 이하가 될 가능성이 높습니다.
  • 구체적 수치는 히든 디멘션, 어텐션 헤드 수, 시퀀스 길이 등 구조적 설정에 따라 달라집니다.
  • 따라서, "절반일까요?"라는 질문에 대한 가장 정확한 대답은
    "절반 이하일 가능성이 크다" 입니다.

💡 Tip: 모델 경량화로 VRAM을 아낄 수 있지만, 구조 변경 방식에 따라 절감 폭이 달라집니다. 특히, KV 캐시 비중이 큰 생성형 모델은 레이어 수 감소 효과가 매우 크다는 점을 기억하세요.

profile
AI developer

0개의 댓글