R2 Score(R-squared) & RMSE
R2 score(결정계수)
- 회귀 모델에서 독립변수가 종속변수를 얼마나 잘 나타내는지를 보여주는 지표
- 결정 계수가 높을 수록 독립변수가 종속변수를 잘 설명하는데, 이때 독립변수의 개수가 증가하면 같이 증가함
- 따라서 독립변수의 개수가 2개 이상이면 조정된 결정계수(Adjusted R-squared)를 사용해야함
- 적합도 평가를 위한 결정계수의 R2 score는 0~1사이의 범위를 가지고 1에 가까울수록 예측력이 높다. 음수라면 평균보다 예측력이 떨어지는 것
R2score=SSTSSE=1−SSTSSR
SST = 총 제곱합,
SST=i=1∑n(yi−yˉ)2
SSE = 제곱 오차항
SST=i=1∑n(yi^−yˉ)2
SSR = 잔차 제곱합
SST=i=1∑n(yi−y^)2
조정된 결정계수(adjusted R-squared)
AdjustedR2=1−SST/(n−1)SSR/(n−k−1)
from sklearn.metrics import r2_score
r2 = r2_score(y, lr.predict(x_2)
상관계수
- 독립변수-독립변수 또는 독립변수-종속변수 와의 상관관계
결정계수
- 상관계수를 제곱한 값
- 변수간 영향을 주는 정도 또는 인과 관계의 정도를 정량화한 것
- (회귀모델+독립변수) - 종속변수
- 따라서 결정계수는 회귀분석에서 사용하는 수치이다.
RMSE
- 평균제곱근 오차, 실제값과 예측값의 차이를 나타내는 척도
- 오차를 제곱한 것을 평균냈기 때문에 오차가 크면 클수록 값이 크다
- RMSE score 높을수록 성능 낮음
RMSE=MSE=n∑(y^−y)2
MAE
- 평균 절대 오차(모델의 예측값과 실제값의 차이를 모두 더함)
- MAE score가 높을수록 성능 낮음
MSE
- 평균 제곱 오차(모델의 예측값과 실제값 차이의 면적의 합)
- MSE score가 높을수록 성능 낮음
R2 score vs RMSE
R2 : 모델이 평균으로 예측한 것에 대해 얼마나 잘 예측하고 있는지, R2 score가 높을수록 성능이 높음
RMSE : 모델이 얼마나 큰 오차를 갖고 있는지, R2 score가 높을수록 성능이 낮음
참고
https://aliencoder.tistory.com/34
https://velog.io/@parkchansaem/R2-score결정계수
https://min23th.tistory.com/25
정말 좋은 글 감사합니다!