선형 회귀 분석 (Linear Regression Analysis)
1. 선형 회귀 개요
선형 회귀(Linear Regression)는 하나 또는 여러 개의 독립 변수(X)를 이용하여 종속 변수(Y)를 예측하는 통계적 기법입니다.
- 단순 선형 회귀(Simple Linear Regression): 독립 변수(X) 1개, 종속 변수(Y) 1개
- 다중 선형 회귀(Multiple Linear Regression): 독립 변수(X) 여러 개, 종속 변수(Y) 1개
선형 회귀의 기본 수식은 다음과 같습니다.
여기서,
- : 종속 변수(예측 값)
- : 독립 변수들
- : 절편(intercept)
- : 회귀 계수(regression coefficient)
- : 오차항(error term)
2. 비용 함수 (Loss Function)
회귀 모델을 최적화하는 과정에서 오차를 최소화해야 합니다. 일반적으로 사용되는 비용 함수는 최소제곱오차(Least Squares Error)입니다.
이는 실제 값 와 예측 값 의 차이를 제곱하여 합한 값입니다.
3. 계수 추정 방법
회귀 계수()를 추정하는 방법으로 최소제곱법(Ordinary Least Squares, OLS)을 사용합니다.
OLS를 이용한 회귀 계수의 공식은 다음과 같습니다.
4. 회귀 모델 평가 지표
회귀 모델의 성능을 평가하는 다양한 지표가 있습니다.
- 값은 0과 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 설명함을 의미합니다.
- 여기서
(2) 평균 절대 오차 (MAE: Mean Absolute Error)
- 절대값을 취한 오차들의 평균값을 계산하는 방식입니다.
(3) 평균 제곱 오차 (MSE: Mean Squared Error)
- 오차의 제곱을 평균 내어 계산하는 방식으로, 이상치(outlier)에 민감합니다.
(4) 평균 제곱근 오차 (RMSE: Root Mean Squared Error)
- MSE의 제곱근을 취한 값으로, MSE보다 실제 오차의 크기를 직관적으로 이해하는 데 유리합니다.
(5) 평균 절대 백분율 오차 (MAPE: Mean Absolute Percentage Error)
- 오차를 실제 값으로 나누어 백분율로 변환한 값의 평균입니다.
5. 편향-분산 트레이드오프 (Bias-Variance Trade-off)
- 모델이 너무 단순하면 편향(Bias)이 높아져 과소적합(Underfitting) 문제가 발생합니다.
- 모델이 너무 복잡하면 분산(Variance)이 높아져 과적합(Overfitting) 문제가 발생합니다.
- 따라서 최적의 모델 복잡도를 찾아야 합니다.
6. 변수 선택 방법 (Feature Selection)
(1) Exhaustive Search (완전 탐색)
- 가능한 모든 조합을 탐색하여 최적의 변수를 찾는 방법이지만 계산량이 기하급수적으로 증가하는 단점이 있음.
(2) Forward Selection (전진 선택법)
- 처음에는 변수가 없는 상태에서 가장 유의한 변수를 하나씩 추가하며 모델을 구축하는 방식.
(3) Backward Elimination (후진 제거법)
- 처음에는 모든 변수를 포함한 상태에서 중요하지 않은 변수를 하나씩 제거하는 방식.
7. 결론
- 선형 회귀 모델은 해석이 쉽고 다양한 데이터 분석에 활용할 수 있는 강력한 도구입니다.
- 하지만 모델이 과적합되지 않도록 적절한 변수 선택과 모델 평가를 수행해야 합니다.
- 편향-분산 트레이드오프를 고려하여 적절한 복잡도를 유지하는 것이 중요합니다.