회귀분석(Regression Analysis)은 통계학 및 머신러닝에서 중요한 기법 중 하나로, 변수 간의 관계를 모델링하고 예측하는 데 사용된다.
특히, 회귀분석은 주어진 데이터를 기반으로 연속적인 결과 변수를 예측하는 데 유용하다.
본 포스팅에서는 회귀분석의 기본 개념과 다양한 유형, 특히 선형 회귀(Linear Regression)에 대해 설명하고, 손실 함수 및 성능 평가 지표를 통해 모델의 정확성을 평가하는 방법을 다룰 것이다.
- 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정
- 변수: 값이 변하는 데이터 요소 또는 속성
- 독립변수(설명변수): 결과의 원인()
- 종속변수(응답변수): 독립변수에 따라 값이 달라짐()
- 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하는 통계적 방법
- 독립 변수의 값을 기반으로 종속 변수의 값을 예측
- : 독립 변수 (예측 변수)
- : 종속 변수 (목표)
- : 직선의 기울기 (회귀 계수)
- : 절편 (상수항)
- 축: 집 크기
- 축: 집 값
- 예측 값이 실제 값과 얼마나 차이나는지를 절대값으로 계산해 평균화한 지표
- 모든 오차를 동일하게 고려하므로 해석이 간단하고, 단위가 종속 변수와 동일
- 주로 일상적인 예측 성능 평가, 쉽게 해석 가능한 경우 사용
- 실제 값과 예측 값 간의 차이의 제곱을 평균낸 값
- 오차를 제곱하므로 큰 오차에 더 큰 패널티를 부여
- 큰 오차에 민감하게 반응하므로, 모델의 큰 오차를 줄이는 데 유용
- 단위가 제곱된 형태라 실제 값과 다를 수 있음
- 주로 모델의 큰 오차를 중요하게 다루어야 하는 경우 사용
- MSE에 제곱근을 취한 값으로, 오차를 원래 단위로 변환
- MSE와 같은 장점을 가지면서도 단위 문제를 해결
- 해석이 용이하고, 큰 오차에 민감하게 반응하는 동시에 실제 값과 같은 단위를 유지
- 모델이 종속 변수의 변동성을 얼마나 설명하는지를 나타내는 지표
- 0에서 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 설명하는 것
- 비교적 해석이 쉽고 다른 모델과 비교할 때 유용
- 주로 모델의 설명력을 평가할 때, 특히 여러 모델의 성능을 비교할 경우 사용
회귀분석은 데이터 분석 및 예측 모델링에서 핵심적인 역할을 수행한다.
본 포스팅에서 살펴본 선형 회귀와 다양한 손실 함수, 성능 평가 지표들은 회귀 모델의 이해와 개선에 필수적이다.
회귀분석을 통해 데이터 간의 관계를 명확히 하고, 예측의 정확성을 높일 수 있는 방법을 배울 수 있었다.