통계야 놀자 4회차: 회귀분석
1. 회귀분석이란?
회귀분석은 독립변수와 종속변수 간의 관계를 수치화하여 예측 및 분석에 활용하는 통계 기법이다. 예를 들어, 게임 시간(x)과 전기세(y)의 관계를 분석한다고 가정하자. 게임 시간은 원인이므로 독립변수이고, 전기세는 결과이므로 종속변수가 된다.
회귀분석의 목적은 추세선(trend line)을 찾는 것이다. 추세선은 기존 데이터들을 가장 잘 설명해주는 선을 의미한다.
- x: 게임시간 (독립변수, 설명변수)
- y: 전기세 (종속변수, 반응변수)
- a: 절편 (x=0일 때 y 값)
- b: 기울기
회귀식: y = a + bx
분석 절차는 일반적으로 3단계로 진행된다.
- 독립변수와 종속변수 설정
- 데이터 경향성 확인
- 정합성 검증 & 결과 해석
- 회귀 모델의 설명력 확인
- 회귀 모델의 통계적 유의성 검증
- 독립변수와 종속변수 간 선형관계 확인
회귀분석에서도 결과가 유의미한지 반드시 검증해야 한다.
2. 회귀분석의 특징과 종류
장점
- 친밀성: 예측 및 추천에서 널리 사용된다. 다양한 해석 및 분석 방법 존재
- 유용성: 결과에 대한 근거와 활용 방안 제공
- 유연성: 종속변수 설명을 위해 다양한 독립변수 선택 가능
단점
- 복잡성: 기본 가정이 충족되지 않으면 적용 불가
- 한계성: 비선형성 확인 방법 제한
2.1 선형회귀분석
- 독립변수: 연속형
- 종속변수: 연속형
- 분석 목적: 예측
- 분석 방법: 선형방정식으로 함수식 표현
종류:
- 단순회귀: 독립변수 1개, 종속변수 1개
- 예: 공부시간 → 시험 점수, 치킨 판매량 → 맥주 판매량
- 다중회귀: 독립변수 2개 이상, 종속변수 1개
- 예: 주택 면적, 방 개수, 욕실 개수 → 주택 가격
2.2 로지스틱 회귀분석
- 독립변수: 연속형 또는 범주형
- 종속변수: 범주형 (이진형 또는 순서 없는 범주형)
- 분석 목적: 분류 및 예측
- 분석 방법: 연결함수를 사용한 함수식 표현
종류:
- 이진 로지스틱 회귀: 종속변수 2개 범주
- 다중 로지스틱 회귀: 종속변수 3개 이상 범주
현업에서는 분석한 모델을 저장하여, 새로운 데이터가 들어왔을 때 모델만 불러와 결과를 재현할 수 있도록 한다.
3. 정합성 검증 & 결과 해석
3.1 회귀모델 설명력 확인
결정계수 R²를 통해 회귀모델의 설명력을 평가한다.
- T (Total): 전체 변동
- R (Regression): 회귀로 설명 가능한 변동
- E (Error): 회귀로 설명 불가한 잔차 변동
설명력(R²) = 회귀를 통해 전체 변동이 얼마나 개선되었는지 나타내는 값
3.2 통계적 유의성 검증
F-검정을 수행하여 회귀식의 통계적 타당성을 평가한다.
- 귀무가설(H0): 회귀모델은 타당하지 않다 (모든 회귀계수 0)
- 대립가설(H1): 회귀모델은 타당하다 (적어도 하나의 회귀계수 ≠ 0)
p-value로 유의성 판단:
- p-value < 0.05 → 대립가설 채택, 회귀모델 통계적으로 유의함
3.3 독립변수와 종속변수 선형관계 확인
회귀식의 기울기에 대해 t-검정을 시행한다.
- 귀무가설(H0): 독립변수와 종속변수 간 선형관계 없음
- 대립가설(H1): 독립변수와 종속변수 간 선형관계 존재
3.4 OLS(Ordinary Least Squares) 해석
OLS는 선형회귀 결과표이다. 주요 항목:
- Dep. Variable (y): 종속변수
- R-squared: 결정계수, 회귀 모델 설명력
- Adj. R-squared: 수정 결정계수
- F-statistic: 모델 전체 유의성
- Prob (F-statistic): F-검정 p-value
- 기타 회귀계수, 표준오차, t-값 등