[인공지능] 선형 회귀(Linear Regression)
회귀(Regression)이란
- 회귀란 과거의 상태로 돌아가는 것으로 알고 있지만 통계학에서는 다른 의미를 가지고 있다.
- 통계학에서 회귀란, 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관 관계를 모델링하는 기법을 뜻한다.
회귀 분석(Regression Analysis) 이란
- 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정하는 분석 방법이다.
- 변수 : 값이 변하는 데이터 요소 또는 속성
- 독립변수(설명변수) : 결과의 원인(x)
- 종속변수(응답변수) : 독립변수에 따라 값이 달라짐(y)
선형 회귀(Linear Regression)이란
- 알려진 다른 관련 데이터 값을 사용하여 알 수 없는 데이터의 값을 예측하는 데이터 분석 기법
- 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하는 통계적 방법
-> 독립 변수의 값을 기반으로 종속 변수의 값을 예측하기 위함
Linear Regression의 방정식
- y=mx+b
- y : 종속변수 (목표)
- m : 직선의 기울기 (회귀 계수)
- x : 독립 변수 (예측 변수)
= b : y절편(상수항)
Linear Regression의 가정
선형성
- 종속 변수와 독립 변수 간의 관계가 선형적이어야 한다.
독립성
- 관측값들은 서로 독립적이어야 한다.
- 잔차들이 무작위로 분포되어 있어야 한다. 시간의 흐름에 따라 잔차가 특정 패턴을 보이면 독립성 가정이 위배된다.
등분산성
- 오류의 분산이 일정해야 한다.
- 잔차(오차의 추정치)들이 일정한 분포를 보여야 한다. 특정 구간에서 잔차의 분산이 커지거나 작아지면 등분산성 가정이 위배된다.
정규성
- 오류가 정규 분포를 따른다.
- 잔차들이 정규 분포를 따를 경우, 점들이 대각선에 가깝게 위치한다.