머신러닝 모델을 평가하는 과정에서 다양한 지표를 활용하여 성능을 측정한다. 모델의 성능을 비교하기 위해 공통된 평가 기준을 적용하며, 대표적인 성능 지표에는 R-Squared, 평균 오류, 평균 절대 오차, 평균 제곱 오차 등이 있다. 본 글에서는 이러한 지표들을 설명하고, 모델 선택 시 활용할 수 있는 변수 선택 기법들을 살펴본다.
값은 회귀 모델의 설명력을 측정하는 지표로, 0에서 1 사이의 값을 갖는다. 1에 가까울수록 모델이 데이터를 잘 설명하고 있다는 의미다.
일반적으로 값이 0.3 이상이면 실무에서 유의미한 모델로 간주되며, 0.8 이상이면 높은 설명력을 가진 모델로 평가된다.
평균 오류는 실제 값과 예측 값의 차이를 평균 낸 값으로, 부호를 포함하여 과대/과소 추정 여부를 판단하는 데 사용된다.
그러나 평균 오류는 부호가 포함되므로 상쇄되는 문제점이 있어 절대값 또는 제곱을 활용한 다른 지표들이 사용된다.
MAE는 평균 오류의 절대값을 활용하여 오차의 크기를 측정하며, 단위가 원래 데이터와 동일하다는 장점이 있다.
MAPE는 예측 오차를 실제 값으로 나누어 상대적인 오차를 측정하는 방법으로, 특정 값의 단위에 의존하지 않는 장점이 있다.
MSE는 오차를 제곱하여 평균을 내는 방식으로, 큰 오차에 대해 더 큰 패널티를 주는 특징이 있다. RMSE는 MSE의 단위를 원래 데이터와 동일하게 만들기 위해 루트를 씌운 값이다.
모델의 복잡성이 증가하면 편향(Bias)은 감소하지만 분산(Variance)이 증가하는 경향이 있다. 따라서 최적의 모델을 선택하기 위해서는 Bias-Variance Trade-off를 고려해야 한다.
모델의 복잡성을 조절하고 성능을 향상시키기 위해 변수 선택 기법을 활용할 수 있다.
모든 가능한 변수 조합을 탐색하여 최적의 변수 조합을 찾는 방법으로, 경우의 수는 개가 존재한다. 그러나 변수가 많아지면 연산 시간이 기하급수적으로 증가하는 단점이 있다.
머신러닝 모델의 성능을 평가할 때 다양한 지표들을 활용하여 모델을 비교하고, 적절한 변수 선택 기법을 적용하면 모델의 예측력을 높일 수 있다. , MSE, RMSE, MAE 등의 지표를 분석하고, Bias-Variance Trade-off를 고려하여 적절한 복잡도를 가진 모델을 선택하는 것이 중요하다. 또한, Forward Selection, Backward Elimination, Stepwise Selection과 같은 변수 선택 기법을 통해 모델의 성능을 더욱 최적화할 수 있다.