두 변수간의 함수 관계가 선형적인 관계가 있는지 파악할 수 있는 측도가 상관계수 이다
1) 상관계수 −1≤p≤1
2) 상관계수가 1에 가까울 수록 양의 상관관계가 강함
3) 상관계수가 -1에 가까울 수록 음의 상관관계가 강함
4) 상관계수가 0에 가까울 수록 두 변수 간의 상관관계가 존재하지 않음
5) 상관계수가 0이라는 것은 두 변수 간에 선형 관계가 존재 하지 않는 다는 것임
표본상관관계(sample correlation coefficient)
데이터가 (x1,y1),(x2,y2),...,(xi,yi)과 같이 i개의 쌍으로 주어 졌을때
예시 (r = 기울기 계산)
📍 회귀 분석
회귀 분석(regression analysis)
변수들간의 함수식 관계를 선형으로 추론하는 통계적 분석 방법으로 독립변수를 통해 종속변수를 예측하는 방법
비선형인 함수적 관계일 경우 비선형회귀 (nonlinear regression)를 사용
예 ) 마케팅 비용에 따른 매출액을 예측
종족 변수(dependent variable)
다른 변수의 영향을 받는 변수로 반응변수라 표현하기도 하며, 예측을 하고자 하는 변수
예 ) 매출액, 수율, 불량율 등
독립 변수(independent variable)
종족변수에 영향을 주는 변수로 설명변수라 표현하기도 하며, 예측하는 값을 설명해주는 변수
🔖 희귀모델링 분류
X변수의 수, X변수와 Y변수의 선형성 여부에 따라 구분
1) 단순, 선형
단순 회귀분석(simple regression analysis)
하나의 독립변수로 종속변수를 예측하는 회귀 모형을 만드는 방법을 단순 회귀분석이라고 함
단순 회귀분석 예시
회귀선으로부터 각 관측치의 오차를 최소로하는 선을 찾는 것이 핵심
오차를 최소로 하여 β0,β1을 추정하는 방법을 최소제곱법(method of least squares)이라 함
최소 제곱법
희귀 모형의 모수 β0,β1을 추정하는 방법중 하나를 최소 제곱법이라고 하며, 회귀 모형의 모수를 회귀 계수라고 함
최소 제곱법을 통해 구한 추정량을 최소제곱추정량(LSE)라고 하며, 최소제곱법을 통해 회귀모형의 모수를 추정하는 것을 OLS(Ordinary Least Square)라고 함
회귀 모형의 오차에 대하여 기본 가정이 있음
1) 정규성 가정 : 오차항은 평균이 0인 정규 분포를 따름
2) 등분산성 가정 : 오차항의 분산은 모든 관측값 xi에 상관없이 일정함
3) 독립성 가정 : 모든 오차항은 서로 독립임 - 엑셀로 작업
분산 분석표
추정된 회귀식에 대한 유의성 여부는 분산분석을 통해서 회귀식의 유의성을 판단 할 수 있음
제곱합을 각각의 자유도 나눈 값을 평균제곱(mean square)라고 함
평균제곱오차(mean square error) = SSE/(n-2) = σ2
회귀평균제곱(regression mean square) = SSR/1
결정 계수(Coefficient of determination : R2)
추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지 (설명력이 있는지)를 수치로 제공하는 값
0과 1사이에 값으로 1에 가까울수록 추정된 모형이 설명력이 높다고 할 수 있음
0이라는 것은 추정된 모형이 설명력이 전혀 없다고 할 수 있음
수정 결정 계수(adjust R2)
R2은 유의하지 않은 변수가 추가되어도 항상 증가됨(다중회귀)
Adjust R2은 특정 계수를 곱해 줌으로서 R2가 항상 증가하지 않도록 함
보통 모형 간의 성능을 비교할 때 사용함
Boston Housing Price (보스턴 주택 가격 데이터)
medv : 주택가격
crim: 자치시(town) 별 1인당 범죄율
RM: 주택 1가구당 평균 방의 개수
잔차 분석
a) 선형성을 벗어나는 경우
종속변수와 독립변수가 선형 관계가 아님
b) 등분산성이 벗어난 경우
일반적인 회귀모형 사용 불가능
등분산성 가정 위배
c) 독립성에 벗어나는 경우
시계열 데이터 또는 관측 순서에 영향을 받는 데이터 에서는 독립성을 담보 할 수 없음(Durbin-Watson test 실행)
d) 정규성을 벗어 나는 경우
Normal Q-Q plot으로도 확인
잔차가 -2 ~ +2 사이에 분포 해야 함
벗어나는 자료가 많으면 독립성 가해 위배
실습
2) 다중, 선형
다중 회귀분석(multiple regression analysis)
2개 이상의 독립변수로 종속 변수를 예측하는 회귀 모형을 만드는 방법을 다중 회귀분석이라고 함