선형 회귀 모델은 종속 변수(y)가 독립 변수(x)들의 선형 결합으로 표현되는 모델이다.
모델의 일반적인 형태는 다음과 같다:
y = β0 + β1 * x1 + β2 * x2 + ... + βn * xn + e
y는 종속 변수x1, x2, ..., xn은 독립 변수들β0, β1, ..., βn은 회귀 계수들e는 오차(에러) 항베타 계수들을 추정하기 위해 가장 널리 사용되는 방법은 최소 제곱법이다.
최소 제곱법은 실제 값(y)과 예측 값(y^)의 차이(오차)의 제곱합을 최소화하는 계수를 찾는 방법이다.
수식으로 표현하면 다음과 같다:
SSE = Σ(yi - y^i)^2
SSE는 오차 제곱합 (Sum of Squared Errors)yi는 실제 값y^i는 예측 값 (y^i = β0 + β1 * xi1 + β2 * xi2 + ... + βn * xin)(1) 오차 제곱합(SSE) 식 작성:
SSE = Σ(yi - (β0 + β1 * xi1 + β2 * xi2 + ... + βn * xin))^2
(2) 베타 계수에 대한 편미분: 각 베타 계수에 대해 편미분을 수행하여 SSE를 최소화하는 값을 찾는다.
∂SSE/∂βj = 0 (for j = 0, 1, 2, ..., n)
(3) 정규 방정식 도출: 편미분한 결과를 정리하면 다음과 같은 정규 방정식으로 표현할 수 있다.
X^T * X * β = X^T * y
여기서,
(4) 베타 계수 계산: 정규 방정식을 풀어 베타 계수를 계산한다.
β = (X^T * X)^(-1) * X^T * y
베타 계수의 유의성을 검정하기 위해 t-검정을 사용한다.
귀무가설(H0): βj = 0 (베타 계수가 유의미하지 않음)
대립가설(H1): βj ≠ 0 (베타 계수가 유의미함)
t-값 계산:
t = βj / SE(βj)
p-값이 0.05 이하이면 귀무가설을 기각하고, 베타 계수가 유의미하다고 판단한다.
p-값이 0.05 이상이면 귀무가설을 기각하지 못하고, 베타 계수가 유의미하지 않다고 판단한다.
베타 계수: x가 한 단위 증가할 때 y에 미치는 영향을 나타낸다.
예를 들어, β1 = 10이면 x1이 한 단위 증가할 때 y가 10만큼 증가한다.
p-값: 베타 계수가 유의미한지를 판단한다.
p-값이 0.05 이하이면 해당 베타 계수가 유의미하다고 본다.
p-값이 0.05 이상이면 해당 베타 계수가 유의미하지 않다고 본다.
변수 중요도를 비교할 때는 각 변수의 스케일을 고려해야 한다.
베타 계수만으로 변수의 중요도를 비교하는 것은 어렵다.
표준화된 계수(Standardized Coefficients)를 사용하여 비교:
모든 변수들을 표준화(평균 0, 표준편차 1)하여 회귀 분석을 수행하면, 베타 계수의 크기로 변수 중요도를 비교할 수 있다.
베타 계수의 의미:
y = 5 + 3 * x1 - 2 * x2
- β0 = 5 (상수항, y 절편)
- β1 = 3 (x1이 한 단위 증가할 때 y는 3만큼 증가)
- β2 = -2 (x2가 한 단위 증가할 때 y는 2만큼 감소)
만약 x1의 p-값이 0.03이라면, x1이 y에 유의미한 영향을 미친다고 판단할 수 있다.
만약 x2의 p-값이 0.07이라면, x2가 y에 유의미한 영향을 미친다고 판단할 수 없다.
모델 해석:
β1이 3이고, p-값이 0.03이므로 x1은 유의미한 변수이다.
β2가 -2지만, p-값이 0.07이므로 x2는 유의미하지 않다.
이와 같이 선형 회귀 분석을 통해 베타 계수를 추정하고, p-값을 이용하여 베타 계수의 유의성을 검정하며, 모델을 해석할 수 있다.
이를 통해 변수들의 중요도를 판단하고, 예측 모델을 구축하는데 활용할 수 있다.