[Python] H100으로 LLM Fine-tuning하려면?

류지수·2025년 7월 4일

Fine Tuning 방법 정리

ZeRO Stage 3 + FP16/BF16 + Gradient Accumulation + Optional LoRA

zeRO의 3단계

이 조합은 속도, 안정성, 메모리 효율, 확장성 모두를 갖춘 최적화 전략
(필요에 따라 LoRA도 선택적으로 사용할 수 있음)

DeepSpeed는 대형 모델을 여러 GPU에 분산시켜 메모리를 절약하고 학습을 가능하게 해줌
ZeRO Stage 3는 모델의 모든 구성요소 (파라미터, GD, Optimizer)를 분산해서 최고 수준의 메모리 효율을 제공함 (단, ZeRO-3는 강력하지만 통신량도 많아짐)
H100 GPU는 BF16 연산에 최적화디어 있기 때문에, fp16보다 빠르고 안정적인 학습이 가능함
Hugging Face Trainer는 검증된 학습 루프와 로깅, 체크포인트 기능을 제공하며, DeepSpeed와도 자연스럽게 연동
TRL은 SFT뿐 아니라 DPO, PPO 같은 사람 선호도 학습 (RLHF)을 쉽게 적용할 수 있는 라이브러리임

deepspeed --num_gpus=4 train.py --deepspeed ds_config.json

train.py는 Hugging Face의 Trainer나 TRL의 SFTTrainer를 활용한 학습 코드여야 함.

끄적끄적