TIL-회귀분석 평가 지표

HJ·2024년 6월 4일

ML_TIL

목록 보기
3/13
post-thumbnail

회귀분석 평가 지표

회귀 평가지표 - MSE

  • 머신이가 똑똑하게 에러를 정의한 것을 바탕으로 회귀식의 평가지표를 만들어보겠어.
    그걸 다시 써보자면!

    1. 에러 정의 방법
    방법 1) 에러 = 실제 데이터 = 예측 데이터 로 정의하기!
    방법 2) 에러를 제곱하여 모두 양수로 만들기, 다 합치기!
    방법 3) 데이터만큼 나누기

    2. 에러 정의 방법 수식화

    yiy_i = y : 실제 값(true), i : 데이터가 여러개여서 붙어있는 거임, ^:예측 값은 웃음(직선을 통해 추정한 값)

    방법1) ε=yiyi^\varepsilon = y_i - \hat{y_i}
    : 실제 값에서 추정 값을 빼면 에러다!
    방법2) i=1n(yiyi^)2\sum\limits_{i=1}^n (y_i - \hat{y_i})^2
    : y에 숫자를 주루룩 넣어서 모든 에러값을 다 제곱하겠어!
    방법3) i=1n(yiyi^)2n\frac{\sum\limits_{i=1}^n (y_i - \hat{y_i})^2}{n}
    : 그걸 개수로 나눌게

이게 바로 Mean Squared Error(MSE)이다.

😈 앞으로 만나는 숫자 예측 문제는 ML이건 DL이건 뭘 만들던 간에! 위의 MSE 지표를 최소화하는 방향으로 진행하고 평가하게 될거다!!

기타 평가 지표

RMSE

: MSE에 Root를 씌워서 제곱 된 단위를 다시 맞추는거!!

MAE

: 절대 값을 이용하여 오차를 계산하는거!!

선형회귀만의 평가지표 - R Square

  • 숫자를 예측하는 회귀분석에서 선형회귀만을 평가하는 지표가 1개 더 있다.
  • 어떤 값을 예측한다는 것은 어림짐작으로 평균값보다 예측을 잘해야한다는 것을 의미한다.
  • ex. 100kg 의 예측 키는 195cm(Y pred) 였는데 실제 키는 180cm(Y true)였다.
    → 때려맞춰보는거다.
  • ex. 전체 키 값 다 갖고와서 n으로 나눈다. 그럼 뭐 대량 160cm 였다고 했을 때, 오차가 클뿐이지 말이 되긴한다.
    → 대표값으로 때려맞춰보는거다.

기초용어

  • yiy_{i}: 특정 데이터의 실제 값
  • yˉ\bar{y}: 평균 값
  • y^\hat{y}: 예측, 추정한 값

    R Square의 정의

  • 3번의 데이터 값
    SST = 174²
    SSE = 5²
    SSR = 169²
    R² = 169² / (169 + 5)²

    해당 값에 대한 설명력 = 94%
    단, 모든 데이터에 대해서 위 계산을 수행해야 해당 선형회귀에 대한 결과값이 나온다.

profile
First time, Last time, Every time.

0개의 댓글