회귀라는 뜻은 '어떤 점으로 돌아간다'는 것이다. 그렇다면 데이터는 어떤 점으로 돌아간다는 것일까? 데이터가 돌아간다는 지점은 바로 평균이다. 수많은 데이터들을 그려보면 결국 하나의 점, 하나의 선으로 모이게 된다는 것이다. 아래에서 회귀식을 살펴볼 것인데, 회귀식이란 데이터가 돌아오는 하나의 선을 찾아 식으로 나타낸 것이다.
회귀 분석에서 Y는 수 많은 X들에 영향을 받아 값이 결정되므로 종속변수라고 부르고, X값은 Y값에 용향을 미치되 각각 독립적으로 존재한다 하여 독립변수라고 부른다. 회귀식에서 W는 독립변수들의 값에 영향을 미치는 회귀계수라고 한다. 꼭 기억할 것은 회귀분석의 목적이다.
아래에는 내가 생각하는 회귀 모델을 사용하는 목적과 회귀 공부를 하며 헷갈린 내용을 간략히 적어보았다.
[ 회귀의 목적 ]
회귀 계수의 목적은 하나의 회귀 선을 찾는 것이고, 이는 최적의 회귀 계수를 찾는 일, 그리고 회귀 계수가 최적인지 확인하는 방법은 오차를 살펴보는 것!
회귀를 공부하며 가장 헷갈리는 개념은 선형성과 비선형성이다.(물론 지금도 헷갈림..)
- 선형성
- 와 에 동시에 상수만큼 곱할 수 있다면 선형성을 갖는다고 표현한다.(예시 : )
- 와 에 각각 2씩 곱해주면 로 원래 식을 유지한다.
- 비선형성
- 와 에 상수만큼 곱할 수 없다면 비선형성을 갖는다고 표현한다.
(예시 : )- 와 에 각각 2씩 곱해주면, 이 된다. (약분을 해줘도 되므로 원본 식과 다르다.)
회귀의 목적은 어떤 회귀 모델을 사용하더라도 중심이 되는 내용이므로 꼭 기억하면 좋을 것 같다.
추가적으로 선형성과 비선형성은 인공지능 뿐만 아니라 통계, 선형대수 쪽에서도 나오고 있으므로 개념을 잘 잡아야 할 것 같다.