R-squared란?

yoonene·2022년 4월 26일
0

면접대비

목록 보기
4/17

Q: R square의 의미는 무엇인가요?


회귀분석의 성능 평가 척도 중 하나로, 결정력(결정계수)라고도 합니다.

R-squared는 독립변수가 종속변수를 얼마나 잘 설명하는 지를 나타냅니다. R-squared는 0과 1 사이 값을 가집니다.

MSE, RMSE, MAE의 경우 작을수록 좋지만 R-squared 는 클수록 좋습니다. 즉 1에 가까울수록 독립변수가 종속변수를 잘 설명할 수 있다는 뜻입니다.

R-squared은 다음과 같은 수식을 통해 계산합니다.

  • SST (Total Sum of Squares): 총제곱합

    (관측값 - 평균)의 제곱합
  • SSE (Explained Sum of Squares): 회귀제곱합

    (예측값 - 평균)의 제곱합, 설명된 분산
  • SSR (Residual Sum of Squares): 잔차제곱합

    (관측값 - 예측값)의 제곱합, 설명 안된 분산

SST, SSE, SSR을 그림으로 표현하면 다음과 같습니다.

SST = SST + SSE

(SSE와 SSR을 바꿔부르는 경우도 있음)

R-squared는 독립변수의 설명력에 관계없이 독립변수가 많으면 많을수록 높아진다는 문제점이 있습니다. 이를 해결하기 위한 방법으로는 독립변수 개수에 대한 패널티를 부여하는 Adjusted R-squared (조정 설명계수)가 있습니다.

면접 질문 출처
https://github.com/zzsza/Datascience-Interview-Questions

profile
NLP Researcher / Information Retrieval / Search

0개의 댓글