Model 평가 및 지표 해석

Ryan·2025년 2월 5일
0

머신러닝 (ML)

목록 보기
3/8

머신러닝 모델 평가 및 지표 해석

머신러닝 모델을 평가하는 과정에서 다양한 지표를 활용하여 성능을 측정한다. 모델의 성능을 비교하기 위해 공통된 평가 기준을 적용하며, 대표적인 성능 지표에는 R-Squared, 평균 오류, 평균 절대 오차, 평균 제곱 오차 등이 있다. 본 글에서는 이러한 지표들을 설명하고, 모델 선택 시 활용할 수 있는 변수 선택 기법들을 살펴본다.


1. R-Squared (R2R^2)

R2R^2 값은 회귀 모델의 설명력을 측정하는 지표로, 0에서 1 사이의 값을 갖는다. 1에 가까울수록 모델이 데이터를 잘 설명하고 있다는 의미다.

R2R^2 계산 공식

  • SST (Total Sum of Squares): 전체 변동성
  • SSR (Residual Sum of Squares): 잔차 변동성
  • SSE (Explained Sum of Squares): 모델이 설명하는 변동성

일반적으로 R2R^2 값이 0.3 이상이면 실무에서 유의미한 모델로 간주되며, 0.8 이상이면 높은 설명력을 가진 모델로 평가된다.


2. 성능 지표 분석

2.1 평균 오류 (Average Error)

평균 오류는 실제 값과 예측 값의 차이를 평균 낸 값으로, 부호를 포함하여 과대/과소 추정 여부를 판단하는 데 사용된다.

그러나 평균 오류는 부호가 포함되므로 상쇄되는 문제점이 있어 절대값 또는 제곱을 활용한 다른 지표들이 사용된다.

2.2 평균 절대 오차 (Mean Absolute Error, MAE)

MAE는 평균 오류의 절대값을 활용하여 오차의 크기를 측정하며, 단위가 원래 데이터와 동일하다는 장점이 있다.

2.3 평균 절대 비율 오차 (Mean Absolute Percentage Error, MAPE)

MAPE는 예측 오차를 실제 값으로 나누어 상대적인 오차를 측정하는 방법으로, 특정 값의 단위에 의존하지 않는 장점이 있다.

2.4 평균 제곱 오차 및 RMSE (Mean Squared Error & Root Mean Squared Error)

MSE는 오차를 제곱하여 평균을 내는 방식으로, 큰 오차에 대해 더 큰 패널티를 주는 특징이 있다. RMSE는 MSE의 단위를 원래 데이터와 동일하게 만들기 위해 루트를 씌운 값이다.


3. Bias-Variance Trade-off

모델의 복잡성이 증가하면 편향(Bias)은 감소하지만 분산(Variance)이 증가하는 경향이 있다. 따라서 최적의 모델을 선택하기 위해서는 Bias-Variance Trade-off를 고려해야 한다.

  • Underfitting (Bias↑, Variance↓): 모델이 너무 단순하여 데이터를 제대로 학습하지 못함.
  • Overfitting (Bias↓, Variance↑): 모델이 너무 복잡하여 학습 데이터에는 잘 맞지만 새로운 데이터에 대한 예측력이 낮음.
  • 적절한 모델 선택: Bias와 Variance의 균형을 맞추는 것이 중요함.

4. 변수 선택 기법 (Feature Selection)

모델의 복잡성을 조절하고 성능을 향상시키기 위해 변수 선택 기법을 활용할 수 있다.

모든 가능한 변수 조합을 탐색하여 최적의 변수 조합을 찾는 방법으로, 경우의 수는 2p12^p -1 개가 존재한다. 그러나 변수가 많아지면 연산 시간이 기하급수적으로 증가하는 단점이 있다.

4.2 전진 선택법 (Forward Selection)

  1. 처음에는 변수를 포함하지 않음.
  2. 하나씩 변수를 추가하면서 Radj2R^2_{adj} 값을 비교.
  3. Radj2R^2_{adj} 값이 증가하면 해당 변수를 유지.
  4. 더 이상 Radj2R^2_{adj} 값이 증가하지 않으면 중단.

4.3 후진 제거법 (Backward Elimination)

  1. 처음에는 모든 변수를 포함.
  2. 가장 기여도가 낮은 변수를 제거.
  3. Radj2R^2_{adj} 값이 큰 폭으로 감소하면 해당 변수를 유지.
  4. 더 이상 변수를 제거해도 Radj2R^2_{adj} 값이 크게 변하지 않으면 중단.

4.4 단계적 선택법 (Stepwise Selection)

  • 전진 선택법과 후진 제거법을 번갈아가며 수행.
  • 최적의 변수 조합을 찾을 가능성이 높지만 연산 시간이 오래 걸릴 수 있음.

결론

머신러닝 모델의 성능을 평가할 때 다양한 지표들을 활용하여 모델을 비교하고, 적절한 변수 선택 기법을 적용하면 모델의 예측력을 높일 수 있다. R2R^2, MSE, RMSE, MAE 등의 지표를 분석하고, Bias-Variance Trade-off를 고려하여 적절한 복잡도를 가진 모델을 선택하는 것이 중요하다. 또한, Forward Selection, Backward Elimination, Stepwise Selection과 같은 변수 선택 기법을 통해 모델의 성능을 더욱 최적화할 수 있다.

0개의 댓글