단순 회귀분석
-
회귀분석
- 변수들간의 함수적 관계를 선형으로 추론하는 통게적 분석 방법으로 독립변수를 통해 종속변수를 예측하는 방법
- 비선형적인 함수적 관계일 경우 비선형회귀를 사용
- 예시 : 마케팅 비용에 따른 매출액을 예측
-
종속 변수
- 다른 변수의 영향을 받는 변수로 반응변수라 표현하기도 하며, 예측을 하고자 하는 변수
- 예시 : 매출액, 수율, 불량율 등
-
독립 변수
- 종속변수에 영향을 주는 변수로 설명변수라 표현하기도 하며, 예측하는 값을 설명해주는 변수
회귀분석의 종류
- 단순회귀분석 : 하나의 독립변수로 종속변수를 예측한느 회귀 모형을 만드는 방법을 단순 회귀분석이라고 함

- 다중 회귀분석 : 2개 이상의 독립변수로 종속 변수를 에측하는 회귀 모형을 만드는 방법을 다중 회귀분석이라고 함

- 회귀분석 그래프


단순 회귀분석의 예시

- 회귀선으로부터 각 관측치의 오차를 최소로하는 선을 찾는 것이 핵심이며, 오차를 최소로 하여 B0, B1을 추정하는 방법을 최소제곱법이라고 함

최소제곱법
- 회귀 모형의 머수 B0, B1을 추정하는 방법 중 하나를 최소 제곱법이라고 하며, 회귀 모형의 모수를 회귀 계수라고 함
- 최소 제곱법을 통해 구한 추정량을 최소제곱추정량(LSE)이라고 하며, 최소제곱법을 통해 회귀모형의 모수를 추정하는 것을 OLS(Ordinary Least Square)이라고 함
- 회귀 모형의 오차에 대하여 기본 가정
- 정규성 가정 : 오차항은 평균이 0인 정규 분포를 따름
- 등분산성 가정 : 오차항의 분산은 모든 관측값 Xi에 상관없이 일정함
- 독립성 가정 : 모든 오차항은 서로 독립임

- 단순 회귀분석 계산식

- 단순 회귀분석의 예시 : 아래의 데이터에 대해서 최소제곱법으로 B0, B1을 추정하고 x=20일 때 y의 값을 예측

분산분석표
- 추정된 회귀식에 대한 유의성 여부는 분산분석을 통해서 회귀식의 유의성을 판단할 수 있음

- 분산분석표의 해석

결정계수
- 추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지(설명력) 수치로 제공하는 값

- 0과 1사이에 추정값으로 1에 가까울수록 추정된 모형이 설명력이 높음
- 0이라는 것은 추정된 모형이 설명력이 전혀 없음


- 수정 결정 계수(Adjust R^2)
- R^2은 유의하지 않은 변수가 추가되어도 항상 증가됨(다중회귀)
- Adjust R^2은 특정 계수를 곱해 줌으로써 R^2가 항상 증가하지 않도록 함
- 보통 모형 간의 성능을 비교할 때 사용

- 잔차분석
- 선형성을 벗어나는 경우 -> 종속변수와 독립변수가 선형 관계가 아님
- 등분산성이 벗어나는 경우 -> 일반적인 회귀모형이 불가능하며, 등분산성 가정 위배
- 독립성에 벗어나는 경우 -> 시계열 데이터 또는 관측 순서에 영향을 받는 데이터에서는 독립성을 담보할 수 없음
- 정규성을 벗어나는 경우 -> Normal Q-Q plot으로 확인하며, 잔차가 -2 ~ 2사이에 분포해야하고 벗어나는 자료가 많으면 독립성 가정 위배
