회귀분석이란?
통계학에서 전통적으로 많이 사용되던 분석 방법으로, 관찰된 여러 데이터를 기반으로 각 연속형 변수 간의 관계를 모델링하고 이에 대한 적합도를 측정하는 분석 방법
독립변수(independent varialbe)와 종속변수(dependent variable) 사이의 상호 관련성을 규명합니다. 독립변수와 종속변수는 각각 설명변수(explanatory variable), 반응변수(response variable)라고 불리기도 합니다.
두 변수 사이의 관계를 직선 형태로 가정하고 분석하는 것을 선형 회귀분석(Linear Regression)이라고 합니다. 선형 회귀분석의 기본 가정 내에 문제가 들어오면 회귀 분석을 시도해볼 만큼 문제를 해결할 때 많이 이용하게 되는 보편적인 방식입니다.
선형 회귀분석의 기본 가정
1) 선형성
2) 독립성
3) 등분산성
4) 정규성
선형회귀는 종속변수 Y와 한 개 이상의 독립변수 X와의 선형 상관관계를 모델링하는 회귀분석 기법입니다. 독립변수의 개수에 따라 한 개의 독립변수를 가지고 있는 방식은 단순 선형회귀, 둘 이상의 독립변수를 가지고 있는 경우는 다중 선형회귀라고 부릅니다.
는 회귀계수라고 하며, 은 종속 변수와 독립 변수 사이에 오차를 의미합니다. 이들은 데이터로부터 추정해야 하는 파라미터가 됩니다.
와 에 해당하는 데이터가 있을 때, 이러한 데이터로부터 와 을 추정한 후 추정한 값들을 바탕으로 모델링을 수행합니다. 해당 모델을 기반으로 새로운 데이터 를 입력으로 넣었을 때, 그에 해당하는 값을 추론합니다.
선형회귀모델을 머신러닝 기반의 방법에서는 다른 변수값을 써서 표현합니다.
H는 가정(Hypothesis), W는 가중치(Weight), b는 편향(bias)을 의미합니다. 대부분의 경우 는 단순 스칼라 값이 아닌 고차원의 행렬(matrix) 형태를 띄고 있는 경우가 많고, 파라미터의 개수가 많을수록 모델의 크기가 커지고 학습하는 것도 어렵습니다.
잔차(Residuals)란 회귀모델을 이용해 추정한 값과 실제 데이터의 차이를 의미합니다. 예를 들어, (2,8) 데이터를 가지고 있고, 선형 회귀모델의 식이 이라고 가정하면 해당 데이터에 대한 잔차 값은 8(실제 데이터의 y값) - 7(실제 데이터의 x값을 모델에 대입했을 떄의 추론된 y값)=1이 됩니다.