본 글은 칸아카데미의 확률과 통계에 대해서 공부하고 정리한 글입니다.
1. 최소제곱회귀
최소제곱회귀는 두 변수 간의 관계를 나타내는 직선을 찾는 통계적 방법으로,
독립 변수 X와 종속 변수 Y 사이의 선형 관계를 가장 잘 설명하는 회귀선을 구한다.
종속 변수 Y를 예측하는 회귀선은 y^ 기호를 통해 나타내며,
이에 대한 방정식은 y^=b0+b1x 와 같은 형태로 표현한다.
b0(y 절편),b1(기울기)는 상관계수 r과 표준편차 sx,sy, 평균 xˉ,yˉ 를 통해 구할 수 있다.
※ 최소제곱회귀를 통한 방정식은 좌표 (xˉ,yˉ)를 지나가기 때문에 이를 이용하여 b0을 찾을 수 있다.
b1(기울기)b0(y 절편)=r⋅sxsy=yˉ−r⋅xˉ
2. 잔차
우리는 위에서 구한 회귀식을 통해 예측값을 알 수 있는데, 실제값과 예측값의 차이를 잔차라고 한다.
이러한 잔차를 제곱하여 모두 더함으로써, 회귀식이 설명하지 못하는 데이터의 변동성을 계산할 수 있는데
이를 잔차 제곱합(Residual Sum of Squares, SSR)이라고 한다.
SSR=i=1∑n(yi−y^i)2
또한 회귀식이 설명하지 못하는 데이터의 변동성이 아니라
실제값과 데이터의 평균과의 차이를 통해 데이터 자체가 가지고 있는 변동성을 구할 수도 있는데
이를 총 제곱합(Total Sum of Suqares, SST)라고 한다.
SST=i=1∑n(yi−yˉ)2
3. 결정계수
결정계수는 잔차를 통해 회귀식의 적합도를 평가할때 주로 사용하는 통계량이다.
기호는 r2를 사용하고 0≤r2≤의 범위를 가지며, 클수록 회귀식이 데이터를 잘 설명한다는 것을 뜻한다.
결정계수는 앞서 설명한 잔차 제곱합, 총 제곱합을 이용해 계산할 수 있다.
총 제곱합은 데이터가 가진 전체 변동성을 의미하고, 잔차 제곱합은 회귀식이 설명하지 못하는 데이터의 변동성을 의미하는데, 이를 통해 비율을 구함으로써 회귀식의 적합도를 산출할 수 있다.
r2=1−SSRSSR=∑i=1n(yi−yˉ)2∑i=1n(yi−y^i)2