기초통계학 - (2-3) 기술통계-상관,단순회귀분석

Kyung Jae, Cheong·2022년 8월 14일

기초통계학

기초통계학(요약)

목록 보기

4/9

상관, 단순회귀분석

keyword - 상관, 산포도, 공분산, 상관계수, 단순회귀분석

상관(Correlation) - 두 변수의 관계

한 변수가 변해감에 따라 다른 변수가 어떻게 변하는지를 살펴보는 것.
인과관계와는 다른개념, 상관관계가 높다해서 원인과 결과로 해석하면 안됨!
그러나 매개변수가 모두 통제된 경우엔 상관관계는 인과관계로 해석할 수 있음.

- 상관관계의 기본가정
    1. 선형성(linearity) : 두변수의 관계가 선형적인 경향성을 나타내야함
    	x변수가 증가할때 y변수가 계속 증가하던지, 계속 감소하던지
    2. 등분산성(homoscedastic) : 대표하는 직선으로부터 흩어진정도가 같아야함
    3. No! 이상점(outlier) : 이상점은 상관계수에 막대한 영향을 주므로 주의
    4. No! 자료절단(truncation) : 자료가 절단되어있지 않아야함
- 상관계수를 계산하기전에 산포도를 꼭 그려보자!

산포도(Scatter plot)

산점도라고도 불림
X축에 한 변수, Y축에 다른 변수를 설정하여 변수값을 나타낸 도표
산포도에 찍힌 점들이 어떤 직선을 중심으로 흩어졌냐에 따라 상관 정도를 파악할 수 있음

공분산(covariance)

2변수가 동시에 변하는 정도를 계산
중심이 되는 점은 x변수와 y변수의 평균점

$s^2_X = \frac{\Sigma(X_i-\bar X)^2}{n}$

$s^2_Y = \frac{\Sigma(Y_i-\bar Y)^2}{n}$

$s_{XY} = \frac{\Sigma(X_i-\bar X)(Y_i-\bar Y)}{n}$

모수치는 $σ_{XY}$ , 표본통계치는 $s_{XY}$

상관계수(Correlation coefficient)

두변수가 관계된 정도를 나타내는 수치, 두변수가 동시에 변하는 정도
상관계수의 범위는 -1.0 에서 +1.0
- 정적관계(상관계수 +1.0), 부적관계(상관계수 -1.0)
Pearson 적률상관계수, Spearman 등위상관계수, 양류상관계수, 양분상관계수, Φ계수
모수치의 상관계수는 ρ(rho)로 표기, 표본통계치는 r로 표기

가장 대표적인 상관계수는 Pearson의 단순적률상관계수
Pearson 적률상관계수(Pearson's simple product-moment correlation coefficient)
- 공분산과 각변수의 표준편차로 계산하는 방법
모수치
$ρ_{XY} = \frac{σ_{XY}}{σ_Xσ_Y}$
표본통계치
$r_{XY} = \frac{s_{XY}}{s_Xs_Y}$

그외 상관계수들(기초단계라 자세히는 다루지 않음)

Spearman 등위상관계수(Spearman rank correlation coefficient)
- X,Y변수 모두 서열척도에 의한 비연속 변수일때 사용
- 모수치는 $ρ_s$ , 표본통계치는 $r_s$
- 제일 높은 1등은 등위점수 1, 순위중복되면 같은 등위점수끼리의 평균값으로
  $r_s = 1 - \frac{6\Sigma D^2_i}{n(n^2-1)}$
  $D_i$ = 등위간 차이
  n = 사례 수
양류상관계수(point-biserial correlation coefficient)
- 독립변수가 명명척도에 의한 두종류로 구분된 질적변수
- 종속변수가 연속적인 양적변수
- 일반적으로 $r_{pb}$ 로 표기함
  $r_{pb} = \frac{\bar Y_H - \bar Y_L}{s_Y} \sqrt{pq}$
  $\bar Y_H$ = 종속변수의 평균이 높은 집단의 평균
  $\bar Y_L$ = 종속변수의 평균이 낮은 집단의 평균
  $s_Y$ = 종속변수의 표준편차
  $p$ = 한 집단에 소속된 사례 수의 비율
  $q$ = 다른 집단에 소속된 사례수의 비율(1-p)
- 결국 Pearson 상관계수의 변형 공식임
- 그래서 Pearson 상관계수로 대신 계산함
양분상관계수(biserial correlation coefficient)
- 독립변수,종속변수 모두 연속적인 양적변수이지만, 독립변수를 양분한 경우
- 일반적으로 $r_b$ 로 표기함
  $r_{b} = \frac{\bar Y_H - \bar Y_L}{s_Y} \frac{pq}{h}$
  $\bar Y_H$ = 종속변수의 평균이 높은 집단의 평균
  $\bar Y_L$ = 종속변수의 평균이 낮은 집단의 평균
  $s_Y$ = 종속변수의 표준편차
  $p$ = 한 집단에 소속된 사례 수의 비율
  $q$ = 다른 집단에 소속된 사례수의 비율(1-p)
  $h$ = 표준정규분포에서 p와 q가 분할되는 지점의 높이
- Pearson 상관계수와 동일한 결과를 가지지 않음
Φ계수(phi coeffient)
- 독립변수,종속변수 모두 명명척도에 의해 양분된 질적변수일때
- Pearson 상관계수로 계산한 값과 값이 동일하게 나옴

a	b
c	d

$\hat Φ = \frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}$

단순회귀분석(simple regression analysis)

상관계수를 활용하여 점들을 대표하는 선을 그리는 과정
산포도를 그려서 기본가정인 선형성, 등분산성, 이상점X, 자료절단X 라면 점들을 대표하는 선을 그릴수 있음
직선은 $Y = aX+b$ 로 표현됨
모든 점을 대표하는 직선을 회귀선(regression line)이라 부른다.
이를 식으로 표현한것을 회귀등식(regression equation)이라한다.
기울기는 회귀계수(regression coefficient)라 부른다.
$\hat Y = B_0 + B_1X$

회귀 등식 계산 절차

두 변수의 산포도를 그려 상관계수 기본가정을 충족하는지 확인한다.
$\bar X$ $\bar Y$ $s_X$ $s_Y$ $r_{xy}$ 를 계산한다.
회귀선의 기울기인 회귀계수를 계산한다.
$B_1 = r_{xy}\frac{s_Y}{s_X}$
(x,y)값 하나를 대입해 회귀선의 절편( $B_0$ )을 계산한다.
$B_0 = \bar Y - B_1\bar X$
회귀등식을 만든다.
$\hat Y = B_0+B_1X$

결정계수(coefficient of determination)
- 상관비(correlation ratio)라고도 불림
- 종속변수의 분산중 독립변수로 설명되는 비율을 의미
- 회귀 모델로 대상을 얼마나 잘 설명할 수 있는지를 숫자로 나타낸 것(설명력)
- 종속변수의 분산(총변화량) Sum of Squared Total, SST
  $SST = \displaystyle\sum_{i=0}^{n}(y_i-\bar y)^2$
- 설명되지 않은 변화량(잔차제곱합) Sum of Squared Residual, SSR
  $SSR = \displaystyle\sum_{i=0}^{n}(y_i-\hat y_i)^2$
  $\hat y_i =$ 모델로 추정한 값
- 결정계수(상관비) $R^2$
  $R^2=1-\frac{SSR}{SST}$
- $R^2$ 값은 상관계수 $r_{xy}$ 의 제곱값과 동일함
- 따라서 어떤 변수의 총변화량의 50%이상을 설명하려면, 상관계수는 0.7을 넘어야함

Kyung Jae, Cheong

일 때문에 포스팅은 잠시 쉬어요 ㅠ 바쁘다 바빠 모두들 화이팅! // Machine Learning (AI) Engineer & BackEnd Engineer (Entry)