Model 평가 및 지표 해석

김대현·2024년 7월 19일

모델의 성능을 평가하고 비교하는 것은 모델 개발 과정에서 매우 중요하다. 여기서는 다양한 평가 지표와 그 해석 방법을 설명한다.

1. R-제곱 (R-Squared)

  • 정의: R-제곱 값은 모델이 종속 변수의 변동성을 얼마나 설명하는지를 나타낸다.

  • 범위: 0부터 1까지. 1에 가까울수록 모델이 데이터를 잘 설명한다.

  • 해석:

    • R-제곱 값이 높을수록 모델의 설명력이 높다.
    • 일반적으로 R-제곱 값이 0.3 이상이면 실무에서 유의미한 모델로 간주될 수 있다.
    • 예시: R-제곱 값이 0.81이면 모델이 종속 변수의 변동성을 81% 설명한다는 의미이다.

2. 평균 제곱 오차 (MSE, Mean Squared Error)

  • 정의: 실제 값과 예측 값의 차이의 제곱을 평균한 값.
  • 공식:

    MSE = (1/n) * Σ(yi - y^i)^2

여기서,

  • n은 데이터 포인트의 수

  • yi는 실제 값

  • y^i는 예측 값

  • 해석: 값이 낮을수록 모델의 예측이 실제 값에 가깝다는 의미이다.


3. 평균 절대 오차 (MAE, Mean Absolute Error)

  • 정의: 실제 값과 예측 값의 차이의 절대값을 평균한 값.

  • 공식:

MAE = (1/n) * Σ|yi - y^i|

  • 해석: 값이 낮을수록 모델의 예측이 실제 값에 가깝다는 의미이다. MSE와 달리 MAE는 오차의 크기를 절대값으로 취해 평균을 내므로, 큰 오차에 덜 민감하다.

4. 평균 절대 비율 오차 (MAPE, Mean Absolute Percentage Error)

  • 정의: 실제 값과 예측 값의 차이를 실제 값으로 나누어 퍼센트로 나타낸 값의 평균.

  • 공식:

MAPE = (100/n) * Σ| (yi - y^i) / yi |

  • 해석: 값이 낮을수록 모델의 예측이 실제 값에 가깝다는 의미이다. 단위가 퍼센트이므로, 다른 데이터셋 간의 비교가 용이하다.

5. 평균 제곱근 오차 (RMSE, Root Mean Squared Error)

  • 정의: 평균 제곱 오차의 제곱근.

  • 공식:

    RMSE = sqrt((1/n) * Σ(yi - y^i)^2)

  • 해석: 값이 낮을수록 모델의 예측이 실제 값에 가깝다는 의미이다. MSE보다 해석이 직관적이며, 큰 오차에 민감하다.


6. 모델 평가 및 해석 순서

(1) 모델 성능 평가:

  • R-제곱, MSE, RMSE, MAE, MAPE 등을 사용하여 모델의 성능을 평가한다.

  • R-제곱 값이 높고 MSE, RMSE, MAE, MAPE 값이 낮을수록 좋은 모델이다.

(2) p-값 검정:

  • 베타 계수의 유의성을 검정한다.

  • p-값이 0.05 이하이면 해당 베타 계수가 유의미하다고 판단한다.

  • p-값이 0.05 이상이면 해당 베타 계수가 유의미하지 않다고 판단한다.

  • 예시:

    • p-값이 0.03이면 유의미한 변수로 판단한다.
    • p-값이 0.07이면 유의미하지 않은 변수로 판단한다.

(3)데이터 전처리 및 피처 선택:

  • 모델 성능이 낮을 경우 데이터 전처리를 통해 데이터를 정제하고, 피처 선택을 통해 중요한 변수를 추출한다.

  • 스케일 조정이나 데이터 변환을 통해 모델의 성능을 향상시킬 수 있다.

(4) 다양한 모델 적용:

  • 선형 회귀 모델 외에도 다양한 회귀 모델을 적용하여 성능을 비교한다.

(5) 해석 및 피처 중요도 판단:

  • p-값을 통해 의미 있는 변수를 추출한다.

  • 추출된 변수를 바탕으로 각 독립 변수가 종속 변수에 미치는 영향을 평가한다.

  • 예를 들어, x가 1 단위 증가할 때 y에 얼마만큼 영향을 미치는지를 판단한다.


7. 예시

  • 두 데이터셋에서의 모델 평가 예시:

  • 데이터셋 1: 실제 값이 100, 예측 값이 110인 경우, 오차는 10, 퍼센트 오차는 10%.

  • 데이터셋 2: 실제 값이 10, 예측 값이 9인 경우, 오차는 1, 퍼센트 오차는 10%.

  • 두 데이터셋 모두 퍼센트 오차는 동일하지만, MSE 계산 시 값이 달라질 수 있다.


이와 같이 다양한 지표를 활용하여 모델의 성능을 평가하고 해석함으로써, 모델의 예측 정확도를 높이고 신뢰성 있는 결과를 도출할 수 있다.

profile
데이터 분석 스쿨 블로그 입니다.

0개의 댓글