[확률과 통계] 최소제곱회귀

Kyeongmin·2024년 8월 4일
0

수학

목록 보기
25/30

본 글은 칸아카데미의 확률과 통계에 대해서 공부하고 정리한 글입니다.


1. 최소제곱회귀

최소제곱회귀는 두 변수 간의 관계를 나타내는 직선을 찾는 통계적 방법으로,
독립 변수 XX와 종속 변수 YY 사이의 선형 관계를 가장 잘 설명하는 회귀선을 구한다.

종속 변수 YY를 예측하는 회귀선은 y^\hat{y} 기호를 통해 나타내며,
이에 대한 방정식은 y^=b0+b1x\hat{y} = b_0 + b_1 x 와 같은 형태로 표현한다.

b0(y 절편),  b1(기울기)b_{0(y\text{ 절편})},\;b_{1(\text{기울기})}는 상관계수 rr과 표준편차 sx,sys_x,\, s_y, 평균 xˉ,yˉ\bar{x},\,\bar{y} 를 통해 구할 수 있다.
※ 최소제곱회귀를 통한 방정식은 좌표 (xˉ,yˉ)(\bar{x},\, \bar{y})를 지나가기 때문에 이를 이용하여 b0b_0을 찾을 수 있다.

b1(기울기)  =  r    sysxb0(y 절편)  =  yˉ    r    xˉ\begin{aligned} b_{1(\text{기울기})} \;&=\; r\;\cdot\; \frac{s_y}{s_x} \\ b_{0(y\text{ 절편})} \;&=\; \bar{y} \;-\;r\;\cdot\;\bar{x} \end{aligned}

2. 잔차

우리는 위에서 구한 회귀식을 통해 예측값을 알 수 있는데, 실제값과 예측값의 차이를 잔차라고 한다.

이러한 잔차를 제곱하여 모두 더함으로써, 회귀식이 설명하지 못하는 데이터의 변동성을 계산할 수 있는데
이를 잔차 제곱합(Residual Sum of Squares, SSR)이라고 한다.

SSR=i=1n(yiy^i)2\text{SSR} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

또한 회귀식이 설명하지 못하는 데이터의 변동성이 아니라
실제값과 데이터의 평균과의 차이를 통해 데이터 자체가 가지고 있는 변동성을 구할 수도 있는데
이를 총 제곱합(Total Sum of Suqares, SST)라고 한다.

SST=i=1n(yiyˉ)2\text{SST} = \sum_{i=1}^{n} (y_i - \bar{y})^2

3. 결정계수

결정계수는 잔차를 통해 회귀식의 적합도를 평가할때 주로 사용하는 통계량이다.
기호는 r2r^2를 사용하고 0r20 \leq r^2 \leq의 범위를 가지며, 클수록 회귀식이 데이터를 잘 설명한다는 것을 뜻한다.

결정계수는 앞서 설명한 잔차 제곱합, 총 제곱합을 이용해 계산할 수 있다.
총 제곱합은 데이터가 가진 전체 변동성을 의미하고, 잔차 제곱합은 회귀식이 설명하지 못하는 데이터의 변동성을 의미하는데, 이를 통해 비율을 구함으로써 회귀식의 적합도를 산출할 수 있다.

r2  =  1    SSRSSR  =  i=1n(yiy^i)2i=1n(yiyˉ)2r^2 \;=\; 1 \; - \; \frac{\text{SSR}}{\text{SSR}} \;=\; \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2 }{\sum_{i=1}^{n} (y_i - \bar{y})^2}
profile
개발자가 되고 싶은 공장장이🛠

0개의 댓글