정확도(Accuracy): 이미지 분류의 경우 Top-1/Top-5 정확도, 자연어 처리(NLP) 모델의 경우 perplexity, F1-Score, BLEU, ROUGE 등의 관련 지표를 비교하여 허용 가능한 범위 내에서 오차가 발생하는지 확인한다.
손실(Loss): Validation Dataset에 대한 손실 값을 비교하여 모델의 예측 능력 변화를 확인한다.
클래스별 성능 분석: 특히 클래스 불균형이 있거나 중요한 클래스가 있는 경우, 경량화로 인해 특정 클래스의 성능이 유독 저하되지는 않았는지 정밀하게 분석한다.
실제 장치 테스트: 모델이 배포될 실제 타겟 하드웨어(예: 엣지 디바이스, 모바일 폰, GPU/CPU 서버 환경)에서 추론 속도를 측정한다.
지연 시간(Latency) 비교: 원본 모델과 경량화 모델의 단일 추론에 걸리는 시간을 비교한다. 일반적으로 경량화 후 지연 시간이 감소해야 한다.
처리량(Throughput) 측정: 초당 처리할 수 있는 요청(쿼리)의 수를 측정하여 서비스 처리 능력을 확인한다.
자원 사용량 모니터링: 메모리 사용량(Memory Footprint) 및 CPU/GPU 사용량 등을 모니터링하여 경량화로 인한 리소스 절감 효과를 검증한다.
실제 서비스 데이터 유사성: 데이터 분포가 실제 서비스에서 발생할 수 있는 입력 데이터를 최대한 반영해야 한다.
이상치 처리 확인: 경량화된 모델이 이상치(Outliers) 데이터에 대해 원본 모델과 유사하게 반응하는지 확인한다. 양자화 과정에서 이상치로 인해 성능 저하가 발생할 수 있다.
통합 테스트: 경량화 모델을 서비스 파이프라인에 통합하고, 전체 시스템이 오류 없이 작동하는지 확인한다.
스트레스 테스트: 고부하 상황에서 모델의 안정적인 성능과 리소스 사용량을 테스트한다.
A/B 테스트 (선택 사항): 실제 사용자 트래픽의 일부를 경량화 모델로 전환하여, 사용자 경험 지표(User Experience Metrics)나 서비스의 최종 목표(예: 클릭률, 구매 전환율)에 부정적인 영향이 없는지 확인한다.
