기초통계학 - (2-3) 기술통계-상관,단순회귀분석

Kyung Jae, Cheong·2022년 8월 14일

기초통계학(요약)

목록 보기
4/9

상관, 단순회귀분석

keyword - 상관, 산포도, 공분산, 상관계수, 단순회귀분석


상관(Correlation) - 두 변수의 관계

  • 한 변수가 변해감에 따라 다른 변수가 어떻게 변하는지를 살펴보는 것.
  • 인과관계와는 다른개념, 상관관계가 높다해서 원인과 결과로 해석하면 안됨!
  • 그러나 매개변수가 모두 통제된 경우엔 상관관계는 인과관계로 해석할 수 있음.
- 상관관계의 기본가정
    1. 선형성(linearity) : 두변수의 관계가 선형적인 경향성을 나타내야함
    	x변수가 증가할때 y변수가 계속 증가하던지, 계속 감소하던지
    2. 등분산성(homoscedastic) : 대표하는 직선으로부터 흩어진정도가 같아야함
    3. No! 이상점(outlier) : 이상점은 상관계수에 막대한 영향을 주므로 주의
    4. No! 자료절단(truncation) : 자료가 절단되어있지 않아야함
- 상관계수를 계산하기전에 산포도를 꼭 그려보자!    

산포도(Scatter plot)

  • 산점도라고도 불림
  • X축에 한 변수, Y축에 다른 변수를 설정하여 변수값을 나타낸 도표
  • 산포도에 찍힌 점들이 어떤 직선을 중심으로 흩어졌냐에 따라 상관 정도를 파악할 수 있음

공분산(covariance)

  • 2변수가 동시에 변하는 정도를 계산
  • 중심이 되는 점은 x변수와 y변수의 평균점

sX2=Σ(XiXˉ)2ns^2_X = \frac{\Sigma(X_i-\bar X)^2}{n}

sY2=Σ(YiYˉ)2ns^2_Y = \frac{\Sigma(Y_i-\bar Y)^2}{n}

sXY=Σ(XiXˉ)(YiYˉ)ns_{XY} = \frac{\Sigma(X_i-\bar X)(Y_i-\bar Y)}{n}

  • 모수치는 σXYσ_{XY} , 표본통계치는 sXYs_{XY}

상관계수(Correlation coefficient)

  • 두변수가 관계된 정도를 나타내는 수치, 두변수가 동시에 변하는 정도
  • 상관계수의 범위는 -1.0 에서 +1.0
    - 정적관계(상관계수 +1.0), 부적관계(상관계수 -1.0)
  • Pearson 적률상관계수, Spearman 등위상관계수, 양류상관계수, 양분상관계수, Φ계수
  • 모수치의 상관계수는 ρ(rho)로 표기, 표본통계치는 r로 표기
  • 가장 대표적인 상관계수는 Pearson의 단순적률상관계수
  • Pearson 적률상관계수(Pearson's simple product-moment correlation coefficient)
    - 공분산과 각변수의 표준편차로 계산하는 방법
    모수치
    ρXY=σXYσXσYρ_{XY} = \frac{σ_{XY}}{σ_Xσ_Y}
    표본통계치
    rXY=sXYsXsYr_{XY} = \frac{s_{XY}}{s_Xs_Y}

그외 상관계수들(기초단계라 자세히는 다루지 않음)

  • Spearman 등위상관계수(Spearman rank correlation coefficient)

    • X,Y변수 모두 서열척도에 의한 비연속 변수일때 사용
    • 모수치는 ρsρ_s, 표본통계치는 rsr_s
    • 제일 높은 1등은 등위점수 1, 순위중복되면 같은 등위점수끼리의 평균값으로
      rs=16ΣDi2n(n21)r_s = 1 - \frac{6\Sigma D^2_i}{n(n^2-1)}
      DiD_i = 등위간 차이
      n = 사례 수
  • 양류상관계수(point-biserial correlation coefficient)

    • 독립변수가 명명척도에 의한 두종류로 구분된 질적변수
    • 종속변수가 연속적인 양적변수
    • 일반적으로 rpbr_{pb}로 표기함
      rpb=YˉHYˉLsYpqr_{pb} = \frac{\bar Y_H - \bar Y_L}{s_Y} \sqrt{pq}
      YˉH\bar Y_H = 종속변수의 평균이 높은 집단의 평균
      YˉL\bar Y_L = 종속변수의 평균이 낮은 집단의 평균
      sYs_Y = 종속변수의 표준편차
      pp = 한 집단에 소속된 사례 수의 비율
      qq = 다른 집단에 소속된 사례수의 비율(1-p)
    • 결국 Pearson 상관계수의 변형 공식임
    • 그래서 Pearson 상관계수로 대신 계산함
  • 양분상관계수(biserial correlation coefficient)

    • 독립변수,종속변수 모두 연속적인 양적변수이지만, 독립변수를 양분한 경우
    • 일반적으로 rbr_b로 표기함
      rb=YˉHYˉLsYpqhr_{b} = \frac{\bar Y_H - \bar Y_L}{s_Y} \frac{pq}{h}
      YˉH\bar Y_H = 종속변수의 평균이 높은 집단의 평균
      YˉL\bar Y_L = 종속변수의 평균이 낮은 집단의 평균
      sYs_Y = 종속변수의 표준편차
      pp = 한 집단에 소속된 사례 수의 비율
      qq = 다른 집단에 소속된 사례수의 비율(1-p)
      hh = 표준정규분포에서 p와 q가 분할되는 지점의 높이
    • Pearson 상관계수와 동일한 결과를 가지지 않음
  • Φ계수(phi coeffient)
    - 독립변수,종속변수 모두 명명척도에 의해 양분된 질적변수일때

    • Pearson 상관계수로 계산한 값과 값이 동일하게 나옴
ab
cd

Φ^=adbc(a+b)(c+d)(a+c)(b+d)\hat Φ = \frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}


단순회귀분석(simple regression analysis)

  • 상관계수를 활용하여 점들을 대표하는 선을 그리는 과정
  • 산포도를 그려서 기본가정인 선형성, 등분산성, 이상점X, 자료절단X 라면 점들을 대표하는 선을 그릴수 있음
  • 직선은 Y=aX+bY = aX+b 로 표현됨
  • 모든 점을 대표하는 직선을 회귀선(regression line)이라 부른다.
  • 이를 식으로 표현한것을 회귀등식(regression equation)이라한다.
  • 기울기는 회귀계수(regression coefficient)라 부른다.
    Y^=B0+B1X\hat Y = B_0 + B_1X
  • 회귀 등식 계산 절차
  1. 두 변수의 산포도를 그려 상관계수 기본가정을 충족하는지 확인한다.
  2. Xˉ\bar X Yˉ\bar Y sXs_X sYs_Y rxyr_{xy} 를 계산한다.
  3. 회귀선의 기울기인 회귀계수를 계산한다.
    B1=rxysYsXB_1 = r_{xy}\frac{s_Y}{s_X}
  4. (x,y)값 하나를 대입해 회귀선의 절편(B0B_0)을 계산한다.
    B0=YˉB1XˉB_0 = \bar Y - B_1\bar X
  5. 회귀등식을 만든다.
    Y^=B0+B1X\hat Y = B_0+B_1X
  • 결정계수(coefficient of determination)
    • 상관비(correlation ratio)라고도 불림
    • 종속변수의 분산중 독립변수로 설명되는 비율을 의미
    • 회귀 모델로 대상을 얼마나 잘 설명할 수 있는지를 숫자로 나타낸 것(설명력)
    • 종속변수의 분산(총변화량) Sum of Squared Total, SST
      SST=i=0n(yiyˉ)2SST = \displaystyle\sum_{i=0}^{n}(y_i-\bar y)^2
    • 설명되지 않은 변화량(잔차제곱합) Sum of Squared Residual, SSR
      SSR=i=0n(yiy^i)2SSR = \displaystyle\sum_{i=0}^{n}(y_i-\hat y_i)^2
      y^i=\hat y_i =모델로 추정한 값
    • 결정계수(상관비) R2R^2
      R2=1SSRSSTR^2=1-\frac{SSR}{SST}
    • R2R^2값은 상관계수 rxyr_{xy}의 제곱값과 동일함
    • 따라서 어떤 변수의 총변화량의 50%이상을 설명하려면, 상관계수는 0.7을 넘어야함
profile
일 때문에 포스팅은 잠시 쉬어요 ㅠ 바쁘다 바빠 모두들 화이팅! // Machine Learning (AI) Engineer & BackEnd Engineer (Entry)

0개의 댓글