Regression

AAiss·2024년 8월 12일

AI Basics

목록 보기
8/12

서론

회귀분석(Regression Analysis)은 통계학 및 머신러닝에서 중요한 기법 중 하나로, 변수 간의 관계를 모델링하고 예측하는 데 사용된다.

특히, 회귀분석은 주어진 데이터를 기반으로 연속적인 결과 변수를 예측하는 데 유용하다.

본 포스팅에서는 회귀분석의 기본 개념과 다양한 유형, 특히 선형 회귀(Linear Regression)에 대해 설명하고, 손실 함수 및 성능 평가 지표를 통해 모델의 정확성을 평가하는 방법을 다룰 것이다.


회귀분석(Regression Analysis)

  • 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정
  • 변수: 값이 변하는 데이터 요소 또는 속성
    • 독립변수(설명변수): 결과의 원인(xx)
    • 종속변수(응답변수): 독립변수에 따라 값이 달라짐(yy)

Linear Regression

  • 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하는 통계적 방법
  • 독립 변수의 값을 기반으로 종속 변수의 값을 예측

  • y=mx+by = mx + b
  • xx: 독립 변수 (예측 변수)
  • yy: 종속 변수 (목표)
  • mm: 직선의 기울기 (회귀 계수)
  • bb: yy 절편 (상수항)

집값과 집 크기 간의 상관관계를 나타낸 산점도

  • xx축: 집 크기
  • yy축: 집 값

모델 평가 지표

MAE (평균 절대 오차)

MAE=1ni=1nyiyi^MAE = \displaystyle\frac{1}{n}\sum_{i = 1}^{n}|y_i - \hat{y_i}|

  • 예측 값이 실제 값과 얼마나 차이나는지를 절대값으로 계산해 평균화한 지표
  • 모든 오차를 동일하게 고려하므로 해석이 간단하고, 단위가 종속 변수와 동일
  • 주로 일상적인 예측 성능 평가, 쉽게 해석 가능한 경우 사용

MSE (평균 제곱 오차)

MSE=1ni=1n(yiyi^)2MSE = \displaystyle\frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y_i})^2

  • 실제 값과 예측 값 간의 차이의 제곱을 평균낸 값
  • 오차를 제곱하므로 큰 오차에 더 큰 패널티를 부여
  • 큰 오차에 민감하게 반응하므로, 모델의 큰 오차를 줄이는 데 유용
  • 단위가 제곱된 형태라 실제 값과 다를 수 있음
  • 주로 모델의 큰 오차를 중요하게 다루어야 하는 경우 사용

RMSE (제곱근 평균 제곱 오차)

RMSE=1ni=1n(yiyi^)2RMSE = \displaystyle\sqrt{\frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y_i})^2}

  • MSE에 제곱근을 취한 값으로, 오차를 원래 단위로 변환
  • MSE와 같은 장점을 가지면서도 단위 문제를 해결
  • 해석이 용이하고, 큰 오차에 민감하게 반응하는 동시에 실제 값과 같은 단위를 유지

R² (결정 계수)

R2=1i=1n(yiyi^)2i=1n(yiyiˉ)2R^2 = \displaystyle1 - \frac{\sum_{i = 1}^{n}(y_i - \hat{y_i})^2}{\sum_{i = 1}^{n}(y_i - \bar{y_i})^2}

  • 모델이 종속 변수의 변동성을 얼마나 설명하는지를 나타내는 지표
  • 0에서 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 설명하는 것
  • 비교적 해석이 쉽고 다른 모델과 비교할 때 유용
  • 주로 모델의 설명력을 평가할 때, 특히 여러 모델의 성능을 비교할 경우 사용

결론

회귀분석은 데이터 분석 및 예측 모델링에서 핵심적인 역할을 수행한다.

본 포스팅에서 살펴본 선형 회귀와 다양한 손실 함수, 성능 평가 지표들은 회귀 모델의 이해와 개선에 필수적이다.

회귀분석을 통해 데이터 간의 관계를 명확히 하고, 예측의 정확성을 높일 수 있는 방법을 배울 수 있었다.


0개의 댓글