일반화 성능

김동준·2025년 11월 7일

LLM

목록 보기
47/50

“성능(performance)”“일반화 성능(generalization performance)”조금 다른 개념이에요.


🌱 1️⃣ 모델 성능 vs 일반화 성능의 차이

구분의미예시
모델 성능(training performance)학습 데이터에서의 정확도, 손실훈련 데이터에서는 99% 정확도
일반화 성능(generalization performance)보지 않은 새로운 데이터(test data)에서의 성능테스트 데이터에서는 84% 정확도
  • 즉, “성능 향상”이 꼭 “일반화 성능 향상”을 의미하지는 않습니다.
  • 훈련 데이터의 품질이 나쁘면, 모델은 노이즈나 편향을 배우고 → 실제 환경에서는 성능이 급락할 수 있습니다.
  • 반대로 품질이 높은 데이터로 학습하면, 모델은 본질적인 패턴(underlying pattern)을 학습하게 되어
    새로운 입력에도 잘 대응합니다. → 이게 바로 일반화 성능 향상입니다.

🧩 2️⃣ 데이터 품질이 일반화 성능을 높이는 이유

데이터 품질 문제발생하는 결과일반화 영향
오타, 오류, 중복모델이 쓸모없는 패턴을 학습❌ 과적합 (overfitting)
편향된 데이터특정 집단만 잘 맞춤❌ 공정성 저하
불균형 데이터한쪽 클래스만 예측❌ 불안정한 예측
클린하고 균형 잡힌 데이터본질적 관계를 학습✅ unseen 데이터에서도 정확

즉, 데이터 품질을 개선하면

“모델이 학습 데이터에만 맞추는 게 아니라,
새로운 상황에서도 잘 작동하도록 돕는다.”

이게 바로 일반화 성능(generalization)이에요.


💡 3️⃣ 예시로 직관 이해하기

사례저품질 데이터고품질 데이터결과
고양이 vs 개 분류 모델인터넷 짤, 그림, 저해상도, 중복해상도 좋은 실제 사진, 다양성 확보훈련 데이터 성능은 비슷하지만, 테스트에서 고품질 데이터로 학습한 모델이 훨씬 정확

즉, 품질이 좋아지면 단순히 “훈련 데이터에서 성능이 높다”가 아니라,
“새로운 환경에서도 일관되게 잘 작동한다.”

이게 일반화 성능의 본질입니다.


🎯 결론

데이터 품질을 높이는 것은 “일반화 성능(generalization performance)”을 높인다.
즉, 단순히 훈련 성능이 아니라, “현실에서의 신뢰성 있는 성능”을 확보하는 것이다.


profile
Story Engineer

0개의 댓글