📘 ols 회귀 결과표

이것은 선형 회귀 모델의 결과를 나타내는 OLS(Ordinary Least Squares) 회귀 결과 표이다. statsmodels의 ols에서는 summary
라는 함수를 지원해주는데 summary를 통해 위와 같은 결과표를 얻을 수 있다.
📖 결과 해석
- Dep. Variable (종속 변수) : 만족도가 회귀 모델에서 종속 변수로 사용되었다는 것을 나타낸다.
- Model : 회귀 모델의 종류를 나타낸다. 여기서는 OLS (최소제곱법) 회귀 모델을 사용했다.
- Method : 회귀 분석에 사용된 메소드를 나타낸다. 여기서는 Least Squares (최소제곱법)를 사용했다.
- Date : 회귀 분석이 수행된 날짜
- Time : 회귀 분석이 수행된 시간
- No. Observations : 사용된 샘플의 수 (관측치의 개수)
- Df Residuals : 잔차의 자유도, 모델에서 추정한 파라미터 수를 뺀 값
- Df Model : 모델의 자유도, 사용된 설명 변수의 수
- Covariance Type : 공분산 유형을 나타낸다. 여기서는 "nonrobust"로 나타내어 간단한 공분산 행렬이 사용되었다.
- coef (계수) : 회귀 계수를 나타낸다. "Intercept"는 절편을, "적절성"은 해당 설명 변수의 회귀 계수를 나타낸다.
- std err (표준 오차) : 회귀 계수의 표준 오차
- t-statistic (t-통계량) : 회귀 계수에 대한 t-통계량을 나타낸다. t-통계량은 해당 계수가 0일 때의 표준 오차에 대한 비율을 나타낸다.
- P>|t| (p-value) : 각 계수에 대한 p-value를 나타낸다. 이 값은 귀무가설이 해당 계수가 0인지에 대한 확률을 나타내며, 일반적으로 0.05보다 작으면 해당 계수는 통계적으로 유의미하다고 판단된다.
- [0.025 0.975] : 95% 신뢰구간 (Confidence Interval)을 나타냅니다. 이는 계수가 해당 구간 안에 있을 확률이 95%라는 것을 의미한다.
- R-squared (결정 계수) : 모델이 설명하는 변동의 비율을 나타낸다. 1에 가까울수록 모델이 데이터를 잘 설명하고 있다는 것을 의미한다.
- Adj. R-squared (조정된 결정 계수) : R-squared를 보정한 값으로, 모델에 추가된 설명 변수의 수에 대한 보정을 반영한다.
- F-statistic (F-통계량) : 모델 전체의 통계적 유의성을 나타내는 F-통계량이다. 높을수록 모델이 통계적으로 유의미하다는 것을 의미한다.
- Prob (F-statistic) : F-통계량에 대한 p-value를 나타낸다. 이 값이 작으면 모델 전체가 통계적으로 유의미하다고 판단된다.
- Log-Likelihood (로그 우도) : 최대 로그 우도를 나타낸다. 로그 우도가 높을수록 모델이 데이터를 잘 설명하고 있다는 것을 의미한다.
- AIC (Akaike Information Criterion) : 모델의 상대적인 품질을 나타내는 지표 중 하나이다. AIC가 낮을수록 모델이 더 적절하다고 판단된다.
- BIC (Bayesian Information Criterion) : AIC와 유사하게 모델의 상대적인 품질을 나타내는 지표 중 하나이다.
- Omnibus: 잔차의 정규성을 검정하는데 사용되는 값이다. 모델 유의성을 판단할 수 있다.
- Prob(Omnibus) : Omnibus 검정에 대한 p-value를 나타낸다. 0.05보다 작으면 유의하다고 판단된다.
- Durbin-Watson : 잔차의 자기상관을 검정하는데 사용되는 값아다. 잔차의 독립성을 판단할 수 있다.
- Jarque-Bera (JB) : 잔차의 정규성과 첨도에 대한 검정을 수행하는 값입니다. 자기 상관에 대해 판단할 수 있다.
- Prob(JB) : Jarque-Bera 검정에 대한 p-value를 나타낸다. 오차의 정규성 가정을 검정하고, 0.05보다 작으면 유의하다.
- Skew (왜도) : 잔차의 왜도
- Kurtosis (첨도) : 잔차의 첨도
- Cond. No. (Condition Number) : 회귀 행렬의 조건 수를 나타낸다. 이 값이 크면 다중공선성의 가능성이 있을 수 있다.
📘 중요 값 개념
📖 coef (회귀 계수)
회귀 분석에서 회귀 계수(coefficient) 는 각 독립 변수의 영향력을 나타내는 값이다.
선형 회귀 모델의 경우, 회귀 계수는 각 독립 변수와 종속 변수 간의 관계를 설명하는데 사용된다. 선형 회귀 모델에서는 회귀 계수는 각 독립 변수의 값이 종속 변수에 얼마나 영향을 미치는지를 나타낸다. 이 계수는 독립 변수의 변화량이 종속 변수에 어떤 변화를 가져올지를 표현한다.
다음의 회귀식을 보자.

여기서 베타값들은 각각 절편(intercept)과 독립 변수 x들의 회귀 계수이다. 이 때, x가 한 단위 증가할 때 y가 얼마나 변화하는지를 베타가 나타낸다. 즉 기울기(slope)와 비슷한 개념이라고 할 수 있다.
회귀 계수의 크기와 방향은 해당 독립 변수가 종속 변수에 어떻게 영향을 미치는지를 나타내며, 이를 통해 각 독립 변수의 중요도나 영향력을 파악할 수 있다. 종종 회귀 분석 결과에서 계수의 부호와 크기가 중요한 해석 요소가 된다.
회귀 계수가 높다는 것은 해당 독립 변수가 종속 변수에 더 큰 영향을 미친다는 것을 의미하고 회귀 계수가 낮다면 독립 변수가 종속 변수에 영향을 별로 미치지 못한 다는 뜻이다.
회귀 계수가 높다는 것은 종속 변수에 대해 높은 설명력을 가지고 있다는 의미일 수 있지만, 이는 다른 변수와의 관계, 데이터의 특성 등을 고려해야 한다. 모델을 평가할 때, 회귀 계수의 크기만을 고려하는 것보다는 여러 가지 평가 지표를 함께 고려하는 것이 중요하다.
📖 std err (표준 오차)
표준 오차(Standard Error)는 회귀 분석에서 회귀 계수의 추정치에 대한 불확실성을 나타내는 지표이다. 회귀 분석에서 우리는 표본 데이터를 사용하여 모집단에 대한 회귀 계수의 값을 추정한다. 그러나 표본 데이터를 사용하기 때문에 추정된 회귀 계수는 실제 모집단의 회귀 계수와 다를 수 있다.
표준 오차는 이러한 추정값의 불확실성을 측정하는 지표로, 회귀 계수 추정치의 표준 편차로 해석할 수 있다. 표준 오차가 작을수록 해당 회귀 계수의 추정치가 실제 모집단의 값과 유사할 것으로 예상된다.
정리 하자면, 표준 오차가 작을수록 해당 회귀 계수 추정치의 신뢰도가 높고, 표준 오차가 클수록 추정치의 신뢰도가 낮다고 볼 수 있다.
📖 t-statistic (t-통계량)
t-통계량(t-statistic)은 t-검정에서 봤던 개념이다. 간단하게 다시 복습해 보자면, t-통계량이란, 두 그룹 간의 평균 차이를 나타내는 값이다. t-검정에 대해서 더 알고 싶다면 이 링크를 통해 다시 학습하기를 바란다.
본론으로 들어가서 왜 회귀분석에서 t-통계량을 쓰는지 알아보자.
1. 회귀 계수의 유의성 검정
- 각 독립 변수의 회귀 계수가 종속 변수에 미치는 영향을 확인하기 위해 사용된다.
- t-통계량을 계산하여 각 회귀 계수가 0과 유의하게 다른지를 검정한다. 즉, 해당 계수가 통계적으로 유의미한지를 확인하는 것이다.
- 일반적으로 t-통계량에 대한 p-value가 일정 수준(예: 0.05)보다 작으면, 해당 회귀 계수는 유의미하다고 판단한다.
2. 가설 검정
- t-통계량을 이용하여 가설을 검정한다. 예를 들어, "특정 독립 변수의 회귀 계수는 0이 아니다"라는 가설을 세우고, t-통계량을 통해 이 가설을 검증한다.
- 이는 해당 독립 변수가 종속 변수에 미치는 영향이 있는지 여부를 확인하는 데 사용된다.
t-통계량은 회귀 분석에서 각 회귀 계수의 통계적 유의성을 평가하는 데 중요한 지표이다. 회귀 분석에서는 일반적으로 회귀 계수의 t-통계량과 p-value를 함께 고려하여 변수의 유의성을 판단하고, 모델의 해석력을 평가한다.
📖 R-squared (결정 계수) & Adj. R-squared (조정된 결정 계수)
R-squared(결정 계수)와 Adjusted R-squared(조정된 결정 계수)는 회귀 분석 모델의 적합도를 측정하는 지표이다. 이들은 종속 변수의 변동량을 독립 변수로 얼마나 잘 설명하는지를 나타낸다.
- R-squared(결정 계수)
결정계수는 모델의 분산 설명력이라고 볼 수 있다. 이는 우리가 만든 모델(독립변수)가 얼마나 많은 데이터를 잘 설명했는가를 의미한다.
결정계수 계산법
R-squared = 1 - SSE/SST
SSE : 잔차 제곱합 (예측값과 실제값의 차이의 제곱의 합)
SST : 총 변동 제곱합 (실제값과 평균값의 차이의 제곱의 합)
종속 변수의 총 변동량 중 회귀 모델에 의해 설명되는 비율을 나타낸다. 값은 0에서 1 사이에 있으며, <span stl1에 가까울수록 회귀 모델이 데이터를 잘 설명한다는 것을 의미한다. 결정 계수가 0이라면 모델이 종속 변수의 변동을 전혀 설명하지 못하는 것이다. 그러나 과적합(overfitting)되었을 때도, R-squared는 높게 나타날 수 있다. 과적합에 대한 설명은 다음 포스팅에서 하겠다. -> 과적합
- Adjusted R-squared(조정된 결정 계수): R-squared와 달리 독립 변수의 개수와 표본 크기를 고려하여 모델의 설명력을 조정한 지표이다. 조정된 결정 계수는 모델에 추가된 독립 변수가 유용한지 여부를 평가하는 데 더 유용하다. R-squared는 추가된 변수가 많아질수록 증가하지만, 조정된 결정 계수는 추가된 변수가 모델에 실제로 유의미한 개선을 가져왔는지를 고려하여 판단한다. 따라서 다수의 독립 변수가 있는 경우, R-squared 대신 조정된 결정 계수를 보는 것이 더 바람직할 수 있다.
일반적으로 회귀 모델을 평가할 때, R-squared와 Adjusted R-squared를 함께 고려하여 모델의 설명력을 판단한다.하지만 R-squared와 Adjusted R-squared가 높다고 해서 항상 좋은 모델은 아니다. 데이터의 특성과 목적에 맞는 적절한 모델 선택이 중요하다.
📖 F-statistic (F-통계량)
선형 회귀 분석에서 F-통계량은 전체 모델의 유의성을 평가하는 데 사용된다. 이 통계량은 회귀 모델이 종속 변수의 변동성을 얼마나 잘 설명하는지를 나타낸다.
1. 모델의 유의성 평가
- F-통계량은 전체 회귀 모델의 설명력을 평가한다. 즉, 모든 독립 변수가 종속 변수의 변동을 얼마나 잘 설명하는지를 확인한다.
- F-통계량은 각 독립 변수의 유의성을 고려하여, 전체 모델이 통계적으로 유의미한지를 평가한다.
2. 다중 회귀 분석에서 변수 선택
- 다중 회귀 분석에서는 여러 개의 독립 변수가 포함된 모델을 사용할 수 있다. F-통계량은 전체 모델의 유의성을 평가함으로써 어떤 변수를 포함시킬지 결정하는 데 도움을 준다.
- F-통계량을 이용하여 모델에 새로운 변수를 추가했을 때 전체 모델의 설명력이 향상되는지를 확인하고 변수를 선택하는 데 활용할 수 있다.
3. F-통계량과 t-통계량의 관계
- F-통계량은 회귀 모델에서 모든 회귀 계수가 0인지를 검정하는 데 사용된다. 이때 각 회귀 계수의 t-통계량과 연관되어 있다.
- 즉, F-통계량은 각 계수의 t-통계량을 종합하여 전체 모델의 유의성을 평가한다.