결정계수는 상관계수를 제곱한 값으로 보면 된다. 하지만 결정계수는 상관계수와 달리 변수간 영향을 주는 정도 또는 인과 관계의 정도를 정량화해서 나타낸 수치이다. 따라서 결정계수는 상관 분석이 아닌 회귀분석에서 사용하는 수치
R2 score(R-squared)는 회귀 모델의 성능에 대한 평가지표이며, 회귀모델에서 독립 변수가 종속 변수를 얼마나 잘 설명해주는 지 보여주는 지표이다. 하지만 독립변수의 개수가 증가하면 결정계수 또한 함께 증가하여 결정계수에만 의존하여 회귀 모델을 평가하기 어렵다. 그래서 조정된 결정계수(adjusted R-squared)가 제시되었다.
여기서 SST는 총 제곱합, SSE는 회귀식 추정값과 관측값의 평균 간 차이인 회귀 제곱합을 나타낸다. SSR은 잔차 제곱합이다.
독립변수의 개수가 2개 이상일 경우 사용한다
상관계수는 독립변수와 독립변수 또는 독립변수와 종속변수들 간의 상관도를 나타냄
결정계수는 회귀모델일때 독립변수와 종속변수의 상관도를 나타냄
결정계수 정의 - 위키피디아 참조
- 통계학에서 결정계수는 추정한 선형 모형이 주어진 자료에 적합한 정도를 재는 척도이며, 반응 변수의 변동량 중에서 적용한 모형으로 설명가능한 부분의 비율을 가르킴
- 결정계수의 값은 0에서 1사이에 있으며, 종속변수과 독립변수사이에 상관관계가 높을수록 1에 가까워진다. 즉 결정계수가 0에 가까운 값을 가지는 회귀모형은 유용성이 낮고, 결정계수의 값이 클수록 !
회귀 모형의 유용성이 높아진다.
참고
https://aliencoder.tistory.com/34
https://ko.wikipedia.org/wiki/%EA%B2%B0%EC%A0%95%EA%B3%84%EC%88%98